Az Amazon létrehozta az egymilliárd paraméteres szövegfelolvasó modellt, de nem adja az emberek kezébe

2024 / 02 / 18 / Bobák Zsófia

#Amazon #hang #nagy nyelvi modell #Base TTS

Az Amazon létrehozta az egymilliárd paraméteres szövegfelolvasó modellt, de nem adja az emberek kezébe

A BASE TTS-t százezer órányi nyilvánosan elérhető beszédfelvételen gyakorlatoztatták és minden eddiginél természetesebb hangot tudnak létrehozni a segítségével.

Legújabb cikkeinkért kövess minket a Rakéta Google News oldalán is!

Az Amazon legújabb text-to-speech (szövegfelolvasó) modellje, a BASE TTS (Big Adaptive Streamable TTS with Emergent abilities) a cég eddigi legnagyobb TTS modellje és a korábbiaknál sokkal természetesebb beszédet lehetséges generálni a segítségével a leírás szerint. A programot nyilvánosan elérhető, szabadon felhasználható hangfelvételeken gyakorlatoztatták, összesen százezer órányi beszéden, amelyek már egy része is elegendőnek bizonyult ahhoz, hogy különleges képességeket kapjon a program. A modell kis híján egymilliárd (980 millió) paraméteres, de már kevesebb paraméter esetében is jó eredményeket értek el vele a hangsúlyozás és más jellemzők tekintetében.

A szövegfelolvasó modell egy autoregresszív transzformátor segítségével alakítja a nyers szöveget beszédkódokká, majd egy dekóder a kódokat hullámformákká fordítja. A beszédkódok egy, a beszédet tokenekké formáló módszerrel készülnek, ami egy algoritmussal a szövegek sorozatát tabuláris alakban kódolja. Az anonimizáció érdekében a hangfelvételeken szereplő beszélők személyazonosságát elrejtő technológiát is alkalmaztak. A modellen dolgozó szakemberek a fejlesztés során tesztelték, hogy mikor jelennek meg a programban olyan képességek, amelyek nem tartoznak kifejezetten a célzottan létrehozott jellemzők közé, vagyis meglepetésszerűen alakulnak ki. A nagy nyelvi modellek ilyen jellegű képességei általában a modellek méretének növelése során bukkannak fel és kisebb modellekben nincsenek jelen, de a BASE TTS esetében már 10 000 órányi felvételen való gyakorlatoztatás és 500 millió paraméter is elég volt ahhoz, hogy speciális adottságokat észleljenek a modell viselkedésében. Ez elsősorban a prozódia, tehát a beszédritmus, hanglejtés terén vált hangsúlyossá, valamint abban mutatkozott meg, hogy a nehezebb mondatok (érzelmi tartalmat, idegen szavakat vagy központozást tartalmazó szövegek) feldolgozása során is kevesebb hibát vétett a modell.

A modell lehetővé teszi, hogy a szintetikus hangok sokkal természetesebbnek hangozzanak és a szövegfelolvasó programok fejlesztése terén nagy előrelépést jelenthet a megjelenése, de az Amazon nem bocsátja a felhasználók rendelkezésére, inkább tanulási célokra szánják. Az eredményeket arra használják majd, hogy a szövegfelolvasó rendszerek sokkal emberibbnek hangozzanak a mesterséges hatás helyett.

(Fotó: SvetaZi/Getty Images)

A Google máris bejelentette az új AI-modelljét, ami a Gemini 1.0-nál is sokkal fejlettebb A Google alig egy hete tette elérhetővé a ChatGPT kihívójának szánt Gemini legerősebb változatát, a Gemini 1.0 Ultrát, de máris bejelentettek egy új modellt.

Itt állíthatod be, hogy a Rakéta az elsők között legyen a Google keresőben

A frissen őrölt kávé nem csak a ráérős reggelek kiváltsága

A kompakt KRUPS Coffee Crush Experience automata kávéfőző frissen őrölt kávéból készít eszpresszót, kapucsínót vagy akár cold brew-t, egyszerű kezelhetőségével és helytakarékos kialakításával pedig a mindennapok kényelmét szolgálja.

A Leica-kamerás csúcstelefon, ami az utazók legújabb kedvence lesz

Utazás közben is úgy fotózhatsz, mint egy profi, és a lemerüléstől sem kell tartani a Xiaomi újdonságával.

Ezek is érdekelhetnek