Az Amazon létrehozta az egymilliárd paraméteres szövegfelolvasó modellt, de nem adja az emberek kezébe

2024 / 02 / 18 / Bobák Zsófia
Az Amazon létrehozta az egymilliárd paraméteres szövegfelolvasó modellt, de nem adja az emberek kezébe
A BASE TTS-t százezer órányi nyilvánosan elérhető beszédfelvételen gyakorlatoztatták és minden eddiginél természetesebb hangot tudnak létrehozni a segítségével.

Az Amazon legújabb text-to-speech (szövegfelolvasó) modellje, a BASE TTS (Big Adaptive Streamable TTS with Emergent abilities) a cég eddigi legnagyobb TTS modellje és a korábbiaknál sokkal természetesebb beszédet lehetséges generálni a segítségével a leírás szerint. A programot nyilvánosan elérhető, szabadon felhasználható hangfelvételeken gyakorlatoztatták, összesen százezer órányi beszéden, amelyek már egy része is elegendőnek bizonyult ahhoz, hogy különleges képességeket kapjon a program. A modell kis híján egymilliárd (980 millió) paraméteres, de már kevesebb paraméter esetében is jó eredményeket értek el vele a hangsúlyozás és más jellemzők tekintetében.

A szövegfelolvasó modell egy autoregresszív transzformátor segítségével alakítja a nyers szöveget beszédkódokká, majd egy dekóder a kódokat hullámformákká fordítja. A beszédkódok egy, a beszédet tokenekké formáló módszerrel készülnek, ami egy algoritmussal a szövegek sorozatát tabuláris alakban kódolja. Az anonimizáció érdekében a hangfelvételeken szereplő beszélők személyazonosságát elrejtő technológiát is alkalmaztak. A modellen dolgozó szakemberek a fejlesztés során tesztelték, hogy mikor jelennek meg a programban olyan képességek, amelyek nem tartoznak kifejezetten a célzottan létrehozott jellemzők közé, vagyis meglepetésszerűen alakulnak ki. A nagy nyelvi modellek ilyen jellegű képességei általában a modellek méretének növelése során bukkannak fel és kisebb modellekben nincsenek jelen, de a BASE TTS esetében már 10 000 órányi felvételen való gyakorlatoztatás és 500 millió paraméter is elég volt ahhoz, hogy speciális adottságokat észleljenek a modell viselkedésében. Ez elsősorban a prozódia, tehát a beszédritmus, hanglejtés terén vált hangsúlyossá, valamint abban mutatkozott meg, hogy a nehezebb mondatok (érzelmi tartalmat, idegen szavakat vagy központozást tartalmazó szövegek) feldolgozása során is kevesebb hibát vétett a modell.

A modell lehetővé teszi, hogy a szintetikus hangok sokkal természetesebbnek hangozzanak és a szövegfelolvasó programok fejlesztése terén nagy előrelépést jelenthet a megjelenése, de az Amazon nem bocsátja a felhasználók rendelkezésére, inkább tanulási célokra szánják. Az eredményeket arra használják majd, hogy a szövegfelolvasó rendszerek sokkal emberibbnek hangozzanak a mesterséges hatás helyett.

(Fotó: SvetaZi/Getty Images)

A Google máris bejelentette az új AI-modelljét, ami a Gemini 1.0-nál is sokkal fejlettebb A Google alig egy hete tette elérhetővé a ChatGPT kihívójának szánt Gemini legerősebb változatát, a Gemini 1.0 Ultrát, de máris bejelentettek egy új modellt.


Olyan tömegmegfigyelést, mint a párizsi Olimpián, nem látott még Európa
Olyan tömegmegfigyelést, mint a párizsi Olimpián, nem látott még Európa
Jogvédők szerint ez veszélyes, a technológiát szállító cég szerint viszont a módszereik merőben másak, mint amit Kínában vagy Katarban láthatunk.
A futók, úgy érezhetik, mintha repülnénk egy új edzési módszerrel
A futók, úgy érezhetik, mintha repülnénk egy új edzési módszerrel
A futók számára az ETH Zürich fejlesztett olyan berendezést, ami csökkenti a légellenállást. Az olimpiára készülők is kipróbálták.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.