Az Amazon létrehozta az egymilliárd paraméteres szövegfelolvasó modellt, de nem adja az emberek kezébe

2024 / 02 / 18 / Bobák Zsófia
Az Amazon létrehozta az egymilliárd paraméteres szövegfelolvasó modellt, de nem adja az emberek kezébe
A BASE TTS-t százezer órányi nyilvánosan elérhető beszédfelvételen gyakorlatoztatták és minden eddiginél természetesebb hangot tudnak létrehozni a segítségével.

Az Amazon legújabb text-to-speech (szövegfelolvasó) modellje, a BASE TTS (Big Adaptive Streamable TTS with Emergent abilities) a cég eddigi legnagyobb TTS modellje és a korábbiaknál sokkal természetesebb beszédet lehetséges generálni a segítségével a leírás szerint. A programot nyilvánosan elérhető, szabadon felhasználható hangfelvételeken gyakorlatoztatták, összesen százezer órányi beszéden, amelyek már egy része is elegendőnek bizonyult ahhoz, hogy különleges képességeket kapjon a program. A modell kis híján egymilliárd (980 millió) paraméteres, de már kevesebb paraméter esetében is jó eredményeket értek el vele a hangsúlyozás és más jellemzők tekintetében.

A szövegfelolvasó modell egy autoregresszív transzformátor segítségével alakítja a nyers szöveget beszédkódokká, majd egy dekóder a kódokat hullámformákká fordítja. A beszédkódok egy, a beszédet tokenekké formáló módszerrel készülnek, ami egy algoritmussal a szövegek sorozatát tabuláris alakban kódolja. Az anonimizáció érdekében a hangfelvételeken szereplő beszélők személyazonosságát elrejtő technológiát is alkalmaztak. A modellen dolgozó szakemberek a fejlesztés során tesztelték, hogy mikor jelennek meg a programban olyan képességek, amelyek nem tartoznak kifejezetten a célzottan létrehozott jellemzők közé, vagyis meglepetésszerűen alakulnak ki. A nagy nyelvi modellek ilyen jellegű képességei általában a modellek méretének növelése során bukkannak fel és kisebb modellekben nincsenek jelen, de a BASE TTS esetében már 10 000 órányi felvételen való gyakorlatoztatás és 500 millió paraméter is elég volt ahhoz, hogy speciális adottságokat észleljenek a modell viselkedésében. Ez elsősorban a prozódia, tehát a beszédritmus, hanglejtés terén vált hangsúlyossá, valamint abban mutatkozott meg, hogy a nehezebb mondatok (érzelmi tartalmat, idegen szavakat vagy központozást tartalmazó szövegek) feldolgozása során is kevesebb hibát vétett a modell.

A modell lehetővé teszi, hogy a szintetikus hangok sokkal természetesebbnek hangozzanak és a szövegfelolvasó programok fejlesztése terén nagy előrelépést jelenthet a megjelenése, de az Amazon nem bocsátja a felhasználók rendelkezésére, inkább tanulási célokra szánják. Az eredményeket arra használják majd, hogy a szövegfelolvasó rendszerek sokkal emberibbnek hangozzanak a mesterséges hatás helyett.

(Fotó: SvetaZi/Getty Images)

A Google máris bejelentette az új AI-modelljét, ami a Gemini 1.0-nál is sokkal fejlettebb A Google alig egy hete tette elérhetővé a ChatGPT kihívójának szánt Gemini legerősebb változatát, a Gemini 1.0 Ultrát, de máris bejelentettek egy új modellt.


Először lőttek ki hajót sínágyúval – és nem az amerikaiak voltak
Először lőttek ki hajót sínágyúval – és nem az amerikaiak voltak
Először lőttek éles célpontra hajóra szerelt sínágyúval, látványos mérföldkőhöz érve az elektromágneses fegyverfejlesztésben.
Hamarosan időkristályokkal fogunk fizetni
Hamarosan időkristályokkal fogunk fizetni
Az első, szabad szemmel is látható időkristályok fényben „pszichedelikus tigriscsíkokként” villannak fel.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.