Ellopja a titkaimat vagy „csak” tanul belőlük az AI?

Gépelés közben az okostelefonod kijelzőjén felbukkanó szóajánlások mögött egy olyan matematikai folyamat húzódik meg, amely alapjaiban írja felül a digitális bizalomról alkotott elképzeléseinket. A legtöbb felhasználó meggyőződése szerint a Google vagy az Apple minden egyes leütött karaktert elment a saját szervereire, hogy ott elemezze a szokásainkat. A valóság ennél sokkal elegánsabb és biztonságosabb. A készüléked ugyanis egy olyan közösségi tanulási folyamat része, ahol a nyers adataid, a privát üzeneteid vagy a banki jelszavaid soha nem hagyják el a telefonod memóriáját. Ezt az eljárást hívjuk összevont tanulásnak, angolul Federated Learningnek. A technológia lényege, hogy a mesterséges intelligencia tanításához szükséges számítási feladatokat szétosztják a felhasználók eszközei között. A központba már csak a levont következtetések, a matematikai finomítások érkeznek meg. Ez a megközelítés feloldja azt a feszültséget, amely a gépi tanulás adatéhsége és az egyéni szféra védelme között feszül.

A hagyományos gépi tanulás során az adatokat egy hatalmas, központi szerverre gyűjtik össze. Itt történik az algoritmus csiszolása, amihez óriási sávszélességre és még nagyobb tárolókapacitásra van szükség. Ez a módszer rengeteg kockázatot rejt magában. Az adatok továbbítása közben illetéktelenek férhetnek hozzá az információkhoz, a központi adatbázis pedig mágnesként vonzza a hackereket. Az összevont tanulás megfordítja ezt a logikát. Ahelyett, hogy a könyvtárba vinnénk az összes könyvet a világ minden pontjáról, a könyvtáros utazik el minden egyes házba. Ott helyben elolvassa a köteteket, kijegyzeteli a tanulságokat, majd a könyveket érintetlenül hagyva továbblép a következő címre. A központban végül csak ezeket az apró jegyzeteket összesítik.

A saját telefonod vagy számítógéped letölti a mesterséges intelligencia aktuális verzióját. Amikor a készüléked töltőn van és nem használod, a processzor munkához lát. Megnézi, hogyan használtad az eszközt aznap, milyen szavakat írtál le, vagy milyen alkalmazásokat nyitottál meg. Ebből készít egy helyi frissítést, egy matematikai vektort, amely leírja az algoritmus hibáit és a javítási javaslatokat. Ez a csomag már csak számok halmaza, amelyből lehetetlen visszafejteni az eredeti üzeneteidet. A rendszer kizárólag ezt a sűrített tudást küldi vissza a szolgáltató felhőjébe. Ott több millió másik felhasználó hasonló csomagjával átlagolják az adatokat, majd az így továbbfejlesztett modellt újra kiküldik mindenkihez. A gép tehát tőled tanul, de nem tudja meg, ki vagy te valójában.

Hol jön ez a legjobban?

Az összevont tanulás egyik leghasznosabb területe az egészségügy, ahol az adatok védelme életbevágó kérdés. A rákos megbetegedések felismeréséhez a mesterséges intelligenciának több százezer röntgenfelvételt és szövettani mintát kell látnia. A kórházak a szigorú adatvédelmi szabályok, mint például az európai GDPR miatt jogszerűen nem oszthatják meg a betegek leleteit más intézményekkel vagy technológiai cégekkel. Ez a korlátozás korábban megkötötte a kutatók kezét. Az új módszerrel azonban a tanuló algoritmus látogat el az egyes kórházak szervereire. Ott helyben elemzi az adatokat, megtanulja felismerni a daganatos elváltozások mintázatait, majd csak ezt a felismerési képességet viszi tovább a következő állomásra.

A betegek személyes adatai az intézmény falain belül maradnak. Az algoritmus mégis globális tudásra tesz szert, hiszen több száz klinika eseteiből tanulhat egyszerre. Ez a folyamat felgyorsítja az új gyógyszerek fejlesztését és a ritka betegségek azonosítását. A kutatók úgy hozhatnak létre szuperintelligens diagnosztikai eszközöket, hogy közben egyetlen páciens neve vagy lakcíme sem kerül ki a rendszerből. A tudás megosztása így már nem jár együtt a titoktartás megszegésével. Az orvostudomány fejlődése elszakad a központi adatgyűjtés kényszerétől. Ez a váltás alapjaiban változtatja meg a gyógyítás hatékonyságát a digitális korban.

Szövetség a csalók ellen

A pénzügyi szektorban a banktitok szentsége akadályozta meg eddig a hatékony fellépést a nemzetközi csalássorozatok ellen. A pénzintézetek gyanakvóak egymással szemben, a versenytársaiknak nem szívesen adnak betekintést az ügyfélkörükbe. A kiberbűnözők ezt a megosztottságot használják ki. Az összevont tanulás itt is hidat ver a partnerek közé. A bankok létrehozhatnak egy közös védelmi algoritmust, amely minden résztvevő tranzakciós adataiból tanul. A gép felismeri a gyanús pénzmozgásokat, a pénzmosásra utaló jeleket vagy a kártyás visszaélések új módszereit.

A folyamat során az egyik bank ügyfeleinek adatai soha nem látszanak a másik bank rendszerében. Csak a bűnözői mintázatokról szerzett tudás válik közössé. Ha egy új típusú csalás bukkan fel az ország egyik felén, az algoritmus azonnal megtanulja a védekezést, és ezt a tudást percek alatt átadja a hálózat összes többi tagjának. A biztonság szintje úgy emelkedik, hogy a banktitok sértetlen marad. A pénzintézetek közötti együttműködés alapja a technológiai garancia, nem a puszta jóindulat. A csalásmegelőzés hatékonysága így a közös adatbázisok fizikai létrehozása nélkül is drasztikusan javul. A gazdaság egésze ellenállóbbá válik a támadásokkal szemben.

A biztonság itt sem 100%

Minden technológiai megoldás hordoz magában sebezhetőségeket. Az összevont tanulás gyenge pontja a résztvevők ellenőrizhetetlensége. Mivel a központi szerver nem látja a nyers adatokat, nehezebb kiszűrni azokat a rosszindulatú szereplőket, akik szándékosan hibás információkkal táplálják az algoritmust. Ezt a jelenséget nevezzük modellmérgezésnek. Egy hacker ezer feltört okostelefon segítségével elhitetheti a rendszerrel, hogy bizonyos típusú gyanús tranzakciók valójában teljesen rendben vannak. Ezzel egy láthatatlan kaput nyithat a későbbi támadásoknak. A mérnökök ezért olyan statisztikai szűrőket építenek be, amelyek felismerik a szélsőségesen eltérő frissítéseket és kizárják azokat az összesítésből.

A differenciális adatvédelem (differential privacy) egy másik védelmi réteg, amelyet a folyamat során alkalmaznak. Ennek lényege, hogy a helyi frissítésekhez egy minimális mennyiségű matematikai zajt adnak hozzá. Ez a zaj megakadályozza, hogy bárki visszafejtse az eredeti adatokat a statisztikai változásokból, mégis lehetővé teszi a globális modell fejlődését. A biztonság és a pontosság közötti egyensúly fenntartása a terület legnagyobb kihívása. A túl sok zaj használhatatlanná teszi az algoritmust, a túl kevés viszont veszélyezteti az anonimitást. A kutatók folyamatosan finomítják ezeket a matematikai gátakat a rendszerek integritásának megőrzése érdekében.

Az összevont tanulás elterjedése véget vethet az óriási adatparkok korának

A technológiai cégek számára az adatok gyűjtése eddig vagyontárgy volt, mára azonban egyre inkább felelősséggé és kockázattá válik. Egy esetleges adatszivárgás büntetése és hírnévvesztése súlyosabb terhet jelent, mint az információkból kinyerhető profit. Az új irányzat lehetővé teszi a cégek számára a szolgáltatásaik fejlesztését anélkül, hogy náluk halmozódna fel a felhasználók minden titka. Az adatkezelés felelőssége és a számítási kapacitás igénye visszakerül a végpontokra, a felhasználók eszközeire. Ez a decentralizáció a digitális ökoszisztéma egészét egészségesebbé teszi.

A jövőben a saját adatunk feletti rendelkezés alapvető elvárás lesz minden szoftverrel szemben. Az összevont tanulás bizonyítja, hogy a mesterséges intelligencia fejlődése nem igényeli a privát szféránk feláldozását. A technológia képes a fejlődésre úgy is, hogy közben tiszteletben tartja a határokat. A digitális világunkban a bizalom már nem az ígéreteken, hanem a szoftver kódjába épített matematikai bizonyosságon alapul. A tudás közös kincs marad, az adat pedig azé, aki létrehozta. Ezzel a váltással a mesterséges intelligencia végre kiléphet a megfigyelő eszköz szerepéből, és valódi, diszkrét segítőtárssá válhat a mindennapjainkban. Az összevont tanulás nem a jövő ígérete, a jelenünk csendes forradalma a zsebünkben lévő eszközök mélyén. Az adatvédelem és a hatékonyság végre közös nevezőre került a bináris kódok világában.