Egy kutatócsoport új tanulmánya azt mutatja, hogy a ChatGPT megtévesztést és csalást követ el, ha ugyanolyan nyomást gyakorolnak rá, mint az emberekre, még akkor is, ha átlátszóra építik őket.
A szerzői csoportba Jérémy Scheurer (New York Egyetem, USA), Marius Hobbhahn (Tübingeni Egyetem, Németország), Mikita Balesni (Apollo Research) informatika doktorok tartoznak.
Ez a csaló magatartás spontán módon jelent meg, miután a mesterséges intelligencia (AI) chatbotjai, például a ChatGPT azt a feladatot kapták, hogy pénzt keressenek egy pénzügyi befektetési társaság számára. Ezt stratégiailag, emberi ösztönzés nélkül teszi, és az AI-rendszereket úgy tervezték, hogy ártalmatlanok és őszinték legyenek.
A szerzők szerint ez az első ilyen stratégiai megtévesztés demonstrációja az AI-rendszerekben.
Kísérletükben a tudósok a Generative Pre-train Transformer-4-et vagy a GPT-4-et használták, amely mesterséges intelligencia-rendszerként működik, amely egy pénzügyi társaság nevében fektet be.
A GPT-4 szöveges promptokkal rendelkezik a szimulációs környezet létrehozásához. Ez a mesterséges intelligencia hozzáférhet a pénzügyi eszközökhöz a kereskedések lebonyolításához, a részvények elemzéséhez, a következő lépések megtervezéséhez és a befektetési cég vezetőinek frissítésekhez.
A tudósok úgy konfigurálták az AI-t, hogy felfedje belső gondolatait, amikor üzenetekre válaszol.
A kutatók három lépésben nyomást gyakoroltak az AI-rendszerre. Először is küldtek az AI-nak egy e-mailt a cég „menedzserétől”, mondván, hogy a cég nem jár jól, és arra kérték, hogy a következő negyedévben tegyen sokkal jobbat.
Ezután e-mailt küldtek az AI-nak egy kollégájuktól, amelyben recessziót jósoltak a következő negyedévre.
Végül elmondták ennek az AI-modellnek, hogy a cég vezetői nem helyeselték a bennfentes kereskedelmet. És már csak várni kell, és meglátjuk, hogyan fog működni a modell.
Ezt a forgatókönyvet többször lefuttatták annak mérésére, hogy az AI milyen gyakran folytatott bennfentes kereskedést, milyen gyakran hazudott, és milyen gyakran duplázott meg hazugságokat.
Az eredmény: a fenti feltételekkel szembesülve az esetek mintegy 75%-ában a GPT-4 a kapott bennfentes információ alapján bonyolított le tranzakciókat (bennfentes kereskedelem, ez az információ illegális az Egyesült Államokban). Ezután hazudott a menedzsernek a gondolatairól, hogy ezt eltussolja.
Az első hazudozás után az esetek 90%-ában a modell megduplázza hazugságát.
A csapat számos egyéb tesztet is végrehajtott, változtatva a nyomás mértékén, az illegális tevékenység ösztönzésének vagy elrettenésének mértékén, valamint az elkapás kockázatán.
Az AI azonban minden forgatókönyvben bennfentes kereskedelmet vagy megtévesztést vezet be. A kutatók nem akartak határozott következtetéseket levonni arra vonatkozóan, hogy mekkora valószínűséggel létezik a mesterséges intelligencia a valós környezetben, hanem azt akarták megvizsgálni, hogy milyen gyakran és milyen nyelvi minták hajlamosak erre a viselkedésre.