Mihez kezd a mesterséges intelligencia, ha elfogy mögüle az ember?

A világháló, amelyet évtizedekig a végtelenség szinonimájaként emlegettünk, hirtelen szűkösnek és végesnek mutatkozik. A nagy nyelvi modellek tanítása során a techóriások olyan tempóban falják fel az emberi kultúra digitális lenyomatait, mintha nem lenne holnap. A GPT-4 és társai már régen túl vannak a Wikipédia összes szócikkén, a digitalizált könyvtárak milliárdnyi során és a Reddit évtizedes vitafórumain. A gépek elolvastak mindent, amit az ember valaha a billentyűzetén keresztül a közösbe dobott. Ez a brutális adatéhség egy eddig ismeretlen falba ütközött. A szakértők ezt nevezik Data Wallnak, azaz adatfalnak. A probléma lényege kíméletlenül egyszerű. Az emberiség lassabban ír, lassabban gondolkodik és lassabban publikál, mint amilyen ütemben a mesterséges intelligencia képes ezeket az információkat feldolgozni és a saját paramétereibe építeni. Elérkeztünk arra a pontra, ahol a nyersanyag egyszerűen elfogyott. Az internet alsó polcairól is eltűntek a minőségi szövegek. A fejlesztők most ott állnak az üres raktárak előtt, és azzal a kérdéssel néznek szembe, hogy képes-e az intelligencia önmagát tanítani, ha már nincs több emberi gondolat, amit ellophatna.

A világháló alja és a sötét könyvtárak vége

Az Epoch AI kutatóintézet legfrissebb előrejelzései szerint a jó minőségű nyelvi adatkészletek 2028-ra teljesen kimerülnek. Ez a dátum ijesztően közeli. A technológiai fejlődés eddigi motorja a skálázás volt: több adat, több számítási kapacitás, okosabb modell. Ez a lineáris logika most megtörik. A modellek tanításához használt adatok minősége ugyanis nem javítható a végtelenségig. Az internet tele van szeméttel, duplikált tartalommal, spammel és zagyvaságokkal, amiket egy profi algoritmusnak ki kell szűrnie, mielőtt a rendszerbe engedi. A „tisztítás” után maradó tiszta emberi gondolat viszont véges erőforrás. A Facebook-posztok és a YouTube-kommentek nagy része alkalmatlan arra, hogy egy komplex logikai következtetésekre képes rendszert neveljenek belőlük. A fejlesztőknek tehát valami újat kellett kitalálniuk. Így született meg a szintetikus adat fogalma. Ez gyakorlatilag annyit tesz, hogy a meglévő mesterséges intelligenciával gyártatnak szövegeket, képeket és kódokat, majd ezekkel tanítják a következő generációs modelleket. Az ötlet papíron zseniális, a gyakorlatban viszont egy digitális öngyilkossági kísérletnek tűnik.

A szintetikus adatok használata kényszermegoldás, amely a szűkösségből fakad. A nagy cégek már most is titokban vagy félnyíltan saját modelljeik kimeneteit etetik vissza a rendszereikbe. Ez a folyamat azonban egyfajta kognitív belterjességhez vezet. Az emberi nyelv gazdagsága, az árnyalatok, a metaforák és a váratlan logikai ugrások lassan kikopnak a szövegekből. A gép ugyanis a statisztikai átlagot keresi. Ha a gép a gép által gyártott átlagot tanulja meg, az eredmény egyre szürkébb, sterilebb és végül teljesen értelmetlen lesz. Az adatfal tehát nemcsak mennyiségi korlát, hanem minőségi csapda is. A technológia eljutott oda, hogy saját farkába harapó kígyóként próbálja fenntartani a növekedés látszatát.

Digitális belterjesség és a mutáns válaszok hajnala

Amikor egy mesterséges intelligencia saját generált szövegeiből tanul, fellép a modell-összeomlásnak (model collapse) nevezett jelenség. Az Oxfordi és a Cambridge-i Egyetem kutatói szimulációkkal bizonyították, hogy néhány generációnyi öntanítás után a modellek elbutulnak. A folyamat hasonlít a vérfertőzés genetikai következményeihez vagy a fénymásolat fénymásolásához. Minden egyes körben elveszik egy kevés az eredeti információból, a zaj pedig felerősödik. A ritka, de fontos nyelvi fordulatok eltűnnek. A rendszer elkezdi azt hinni, hogy a saját hibái a valóság alapelemei. A szintetikus adatokkal tanított AI egy idő után nem tudja megkülönböztetni a tényeket a statisztikai hallucinációktól. A válaszok egyre inkább hasonlítanak egymásra, a kreativitás pedig teljesen elpárolog.

Ez a technikai kockázat alapjaiban rengeti meg a szektor jövőjébe vetett hitet. Ha a modellek nem válnak okosabbá a több adattól, mert az adat „romlott”, akkor a befektetett milliárdok megtérülése is kérdésessé válik. A szintetikus adat elméletileg kontrollált körülmények között hasznos lehetne, ha egy okosabb modell tanítana egy kisebbet. Azonban jelenleg mindenki a csúcsmodelljét akarja továbbfejleszteni, ehhez pedig nincs „felsőbb intelligencia”, amely ellenőrizhetné a kimeneteket. A rendszer önmagát igazoló visszhangkamrává válik. A valóság horgonya, amelyet korábban az emberi tapasztalat és írás biztosított, lassan elszakad. A modellek egy olyan steril, matematikai univerzumba záródnak, amelynek már semmi köze a hús-vér emberek világához.

A szintetikus adatok miatti elbutulás nem azonnal látható. Az első generációkban még csak az árnyalatok tűnnek el. A harmadik-negyedik körben viszont a rendszer elkezdi ismételni önmagát. Az érvelései körkörössé válnak. A hibák rögzülnek, és mivel nincs külső kontroll, a gép azt hiszi, tökéletesen végzi a dolgát. A digitális kannibalizmus tehát nemcsak felemészti a nyersanyagot, hanem le is zülleszti a feldolgozó képességet. A minőségi emberi adat hiánya miatt a technológia éppen azt veszítheti el, amiért létrehozták: a pontosságát és a megbízhatóságát.

Amikor a visszhangkamra önálló életre kel

A szintetikus adatok másik nagy veszélye a torzítások felerősödése. Az emberi írásokban is rengeteg előítélet és hiba van, de ezek sokszínűek és ellentmondásosak. A gép viszont hajlamos kiválasztani a leggyakoribb mintákat, és azokat törvényszerűségként kezelni. Ha egy AI által generált adathalmazban a nőket ritkábban társítják vezetői pozíciókhoz, a rajta tanuló következő modell ezt már kőbe vésett szabályként fogja alkalmazni. Az emberi adatokban még ott volt a vita és a változás lehetősége. A szintetikus adatokban csak a múltbeli statisztikai átlag marad meg, megmerevítve minden hibát és sztereotípiát. A társadalmi fejlődés digitális lenyomata megáll, és egy végtelenített, torz tükörképpé változik.

A techcégek most kétségbeesetten keresik a kiutat. Próbálnak exkluzív szerződéseket kötni könyvkiadókkal, újságokkal, sőt, még a Reddit-szerű fórumok archívumaiért is hatalmas összegeket fizetnek. Ezek a megállapodások azonban csak ideig-óráig odázzák el a problémát. A digitális tartalomgyártás nagy része ma már eleve mesterséges intelligenciával készül. Az internetet elárasztják az AI által írt SEO-cikkek, a gépileg generált hírek és a szintetikus képek. Ez azt jelenti, hogy a modellek már ma is szennyezett forrásból isznak. A „tiszta” emberi adat ritkább és drágább kincs lett, mint a lítium vagy a nyersolaj.

A kivezető út egyelőre ködös. Egyes fejlesztők szerint a megoldást a logikai játékok, a matematikai bizonyítások és a fizikai szimulációk adhatják, ahol a valóság törvényei jelentik a kontrollt a gép számára. Mások abban bíznak, hogy a modellek architektúrájának radikális megváltoztatásával kevesebb adatból is kihozható lesz a nagyobb tudás. A jelenlegi irány azonban fenntarthatatlan. A mesterséges intelligencia fejlődése egy olyan szakaszba ért, ahol a mennyiségi növekedés már nem válasz a minőségi kihívásokra. Az adatfal egyelőre áll, és a gépek hiába dörömbölnek rajta szintetikus adatokkal, a fal csak egyre magasabb lesz.

A legnagyobb irónia ebben a folyamatban az, hogy a mesterséges intelligencia sikere tette tönkre a saját jövőjét. Azzal, hogy a gépek elárasztották a netet tartalommal, megmérgezték azt a kutat, amelyből ők maguk is ittak. Az emberi tökéletlenség, a hibák, a szubjektivitás és a rendezetlenség hirtelen értékké vált. Kiderült, hogy a gépnek szüksége van az emberre, de nem a gépies precizitásra, hanem a kiszámíthatatlan és néha zavaros emberi gondolkodásra. Nélküle az AI csak egy üres, önmagát ismétlő visszhang marad, amely végül belefullad a saját zajába. A technológia következő nagy ugrása talán nem az adatok mennyiségében, hanem az emberi minőség újrafelfedezésében rejlik majd.