A kutatás középpontjában az állt, hogy mi történik akkor, ha a nagy nyelvi modelleket, például a ChatGPT-hez hasonló rendszereket olyan adatokon trenírozzák, amelyek rövid, szenzációhajhász vagy virálisan terjedő, de érdemi tartalommal nem rendelkező, gagyi bejegyzésekből állnak. A kutatók több mint egymillió posztot gyűjtöttek az X-ről, majd ezeket két nagy csoportba osztották:
A modelleket ezután különböző arányban etették ezekkel a tartalmakkal, és a teljesítményüket logikai, nyelvi és etikai jellegű feladatokban mérték. Az eredmények szerint minél nagyobb arányban kaptak szemétadatot a nyelvi modellek, annál inkább romlott pontosságuk, következetességük és érvelési képességük.
A legrosszabbul teljesítő modellek hajlamosak voltak hamis vagy torz információkat csepegtetni a nagy digitális tengerbe, illetve túlzottan leegyszerűsített válaszokat adtak. Arról nem is beszélve, hogy ezekre a modellekre jellemzők lettek a nárcisztikus és pszichopátiás viselkedésminták.
A kutatás arra is rámutatott, hogy a mesterséges intelligencia tanításánál nemcsak az adat mennyisége, hanem annak minősége is igencsak fontos lehet. Ha a jövőbeli modellek főként szemétből tanulnak, valamint olyan cuccból, amit korábbi nagy nyelvi modellek hoztak létre – utóbbit nevezhetjük újrahasznosított, sekély szövegeknek –, az öngerjesztő hülyülésnek vezethet. Ezt a folyamatot nevezték el a kutatók MI-agyrothadásnak.
A fejesek szerint ezért nagyon fontos az, hogy az MI-fejlesztések során megőrizzük az emberi eredetű, gazdag és változatos adatok arányát.
Ugyanis ha a mesterséges intelligencia a közösségi média logikáját követi, illetve másolja, az idővel bizony saját szellemi leépüléséhez vezethet. Így megvalósulhat az a csodálatos disztópia, amint ember és nagy nyelvi modell együtt lovagolhat be elhülyülve az újmodern világ naplementjébe.
Ezek is érdekelhetnek: