Az Amazon legújabb text-to-speech (szövegfelolvasó) modellje, a BASE TTS (Big Adaptive Streamable TTS with Emergent abilities) a cég eddigi legnagyobb TTS modellje és a korábbiaknál sokkal természetesebb beszédet lehetséges generálni a segítségével a leírás szerint. A programot nyilvánosan elérhető, szabadon felhasználható hangfelvételeken gyakorlatoztatták, összesen százezer órányi beszéden, amelyek már egy része is elegendőnek bizonyult ahhoz, hogy különleges képességeket kapjon a program. A modell kis híján egymilliárd (980 millió) paraméteres, de már kevesebb paraméter esetében is jó eredményeket értek el vele a hangsúlyozás és más jellemzők tekintetében.
A szövegfelolvasó modell egy autoregresszív transzformátor segítségével alakítja a nyers szöveget beszédkódokká, majd egy dekóder a kódokat hullámformákká fordítja. A beszédkódok egy, a beszédet tokenekké formáló módszerrel készülnek, ami egy algoritmussal a szövegek sorozatát tabuláris alakban kódolja. Az anonimizáció érdekében a hangfelvételeken szereplő beszélők személyazonosságát elrejtő technológiát is alkalmaztak. A modellen dolgozó szakemberek a fejlesztés során tesztelték, hogy mikor jelennek meg a programban olyan képességek, amelyek nem tartoznak kifejezetten a célzottan létrehozott jellemzők közé, vagyis meglepetésszerűen alakulnak ki. A nagy nyelvi modellek ilyen jellegű képességei általában a modellek méretének növelése során bukkannak fel és kisebb modellekben nincsenek jelen, de a BASE TTS esetében már 10 000 órányi felvételen való gyakorlatoztatás és 500 millió paraméter is elég volt ahhoz, hogy speciális adottságokat észleljenek a modell viselkedésében. Ez elsősorban a prozódia, tehát a beszédritmus, hanglejtés terén vált hangsúlyossá, valamint abban mutatkozott meg, hogy a nehezebb mondatok (érzelmi tartalmat, idegen szavakat vagy központozást tartalmazó szövegek) feldolgozása során is kevesebb hibát vétett a modell.
A modell lehetővé teszi, hogy a szintetikus hangok sokkal természetesebbnek hangozzanak és a szövegfelolvasó programok fejlesztése terén nagy előrelépést jelenthet a megjelenése, de az Amazon nem bocsátja a felhasználók rendelkezésére, inkább tanulási célokra szánják. Az eredményeket arra használják majd, hogy a szövegfelolvasó rendszerek sokkal emberibbnek hangozzanak a mesterséges hatás helyett.
(Fotó: SvetaZi/Getty Images)