Meglepő, hogy a mesterséges intelligencia képes fehérjéket generálni? Ma már annyira nem. Viszont az már elgondolkodtató, ha ezt a feladatot nem egy specializált algoritmus, hanem egy, az immár világszerte ismert ChatGPT-hez hasonló nyelvi modell teszi. A Motherboard ugyanis épp egy ilyen kísérletről számolt be, amelynek nem várt konzekvenciája is akadt.
Gyorsan térjünk ki arra, hogy egyáltalán mi az a fehérje, és miért fontosak a számunkra! A fehérjék kapcsán a mostani hír értelmezéséhez két dolog fontos: ezen óriásmolekulák felépítése, valamint a biológiai szerepük. „A fehérjék egy szabályosan ismétlődő elemekből álló molekuláris gerinchez, az ún. peptidgerinchez kapcsolódó aminosavak láncolatából álló makromolekulák. Az aminosavak sorrendjét az N-terminálistól a C-terminális felé haladva aminosav-szekvenciának nevezzük.” Ami a biológiai szerepüket illeti: „A fehérjék fontos biológiai szerepét jellemzi, hogy minden sejtben lejátszódó folyamatban részt vesznek. Számos fehérje enzimaktivitást mutat, azaz valamilyen biokémiai folyamat katalizátoraként segítik elő a sejt életben maradását.”
Összefoglalva tehát a biológiai működés alapját jelentő óriásmolekulákról van szó, amelyek aminosavakból épülnek fel – ezek különböző sorrendje és elrendezése pedig eltérő fehérjéket eredményez (ezt a sorrendet egyébként a gének nukleotid szekvenciája kódolja). Ha ezt megértjük, akkor azt is láthatjuk, hogy egy nyelvi modell miért lehet alkalmas fehérjék generálására: a húszféle aminosav, amelyből a fehérjék felépülnek ugyanis épp olyanok, mint mondjuk a hangok (fonémák) melyek adott sorrendje (szekvenciája) különböző szavakat (most mondjuk így: morfémákat) kódol, vagy ahogy ez utóbbiaknak a grammatika figyelembevételével generált sorrendjéből megszületik a mondat. Magyarán a fehérje végső soron egy nyelv, amelynek alapeleme az aminosav. Miként azt az egyik szakember a Motherboardnak elmagyarázta:
„Ugyanúgy, ahogy a szavakat egyesével összefűzik szövegben megjelenő mondatokká (a nyelvi modellek), az aminosavakat egyesével összefűzik fehérjék előállításához. Erre a felismerésre építve a neurális nyelvi modellezést alkalmazunk fehérjéken, hogy valósághű, mégis újszerű fehérjeszekvenciákat állítsunk elő.”
Még egyszerűbben: ahelyett, hogy a modell mondjuk az angol nyelvet sajátítaná el, a fehérjék „nyelvét” tanulja meg. A tanulmányt a Nature Biotechnology-ban tették közzé, és az alkalmazott nyelvi modell a Salesforce ProGen-je volt. A kutatásban több intézmény is közreműködött: a Salesforce Research és a University of California-San Francisco és University of California-Berkeley kutatói vettek ebben részt.
A ProGen-t először, mint minden tanuló szoftvert, hatalmas adatbázissal, ebben az esetben 280 millió fehérjével tanították be. Két hét elteltével a csapat finomhangolta a modellt azáltal, hogy öt különböző családból származó körülbelül 56 000 fehérjét tartalmazó adatkészletet alkalmazott. A modell ezután egymillió mesterséges szekvenciát generált. A csapat ezekből 100 fehérjére összpontosított, hogy megnézze, hogyan viszonyulnak ezek a természetes fehérjékhez, és hogy megfelelően követték-e az aminosav-összetétel úgynevezett „grammatikáját”.
Öt fehérjét ténylegesen is elkészítettek, és kipróbálták laborkörülmények között. Ezek közül kettő pedig éppen úgy működött, mint azok az enzimek, amelyek természetes úton, tehát az evolúciónak köszönhetően alakultak ki évmilliók alatt. Külön érdekesség, hogy a modell még evolúciós mintázatokat is felfedezett, holott erre nem lett betanítva.
Persze a nagy kérdés mégiscsak az, hogy miért jobb egy nyelvi modellel fehérjéket generálni, mint a hagyományos szoftverekkel? A kutatók válasza erre a következő:
„Munkánkban feltételes nyelvi modelleket használunk, amelyek lényegesen nagyobb szabályozást tesznek lehetővé afelől, hogy milyen típusú szekvenciák jönnek létre, így ezek hasznosabbak a specifikus tulajdonságokkal rendelkező fehérjék tervezésében.”
A fehérjék mesterséges evolúciója pedig idővel akár jobb fehérjéket is eredményezhet, mint azok, amelyek természetes módon jöttek létre. Mint az egyik kutató fogalmazott:
„Hogy az emberi szervezetben valami jól vagy rosszul működik, a fehérjéken múlik, így újak tervezése lehetővé teszi számunkra, hogy hatékonyabban kezeljük a betegségeket, vagy akár el is kerüljük azokat. Az MI segítségével megtervezhetjük ezeket a megoldásokat.”