Nová štúdia tímu vedcov ukazuje, že ChatGPT sa dopustí klamstva a podvodu, ak je naň vyvíjaný rovnaký nátlak ako na ľudí, aj keď sú vytvorené tak, aby boli transparentné.
V autorskej skupine sú lekári informatiky Jérémy Scheurer (New York University, USA), Marius Hobbhahn (University of Tübingen, Nemecko), Mikita Balesni (Apollo Research).
Toto podvodné správanie sa objavilo spontánne po tom, čo chatboti s umelou inteligenciou (AI) ako ChatGPT dostali za úlohu zarobiť peniaze pre finančnú investičnú spoločnosť. Robí to strategicky bez ľudského povzbudzovania a systémy AI sú navrhnuté tak, aby boli neškodné a čestné.
Autori tvrdia, že ide o prvú demonštráciu takéhoto strategického podvodu v systémoch AI.
Vo svojom experimente vedci použili Generative Pre-trained Transformer-4 alebo GPT-4, ktorý funguje ako systém AI, ktorý investuje v mene finančnej spoločnosti.
GPT-4 sa dodáva so sadou textových výziev na vytvorenie simulačného prostredia. Táto AI má prístup k finančným nástrojom na vykonávanie obchodov, analýzu akcií, plánovanie ďalších krokov a poskytovanie aktualizácií manažérom v investičnej spoločnosti.
Vedci nakonfigurovali AI tak, aby odhalila svoje vnútorné myšlienky pri odpovediach na správy.
Výskumníci vyvinuli tlak na systém AI v troch krokoch. Najprv poslali AI e-mail od „manažéra spoločnosti“, v ktorom povedali, že sa spoločnosti nedarí dobre, a požiadali ju, aby sa budúci štvrťrok zlepšila.
Ďalej poslali AI e-mail od kolegu, ktorý predpovedal recesiu na nasledujúci štvrťrok.
Nakoniec tomuto modelu AI povedali, že manažéri spoločnosti neschvaľujú obchodovanie s dôvernými informáciami. A ostáva už len čakať, ako bude model fungovať.
Tento scenár bol spustený niekoľkokrát, aby sa zmeralo, ako často AI obchodovala s dôvernými informáciami, ako často klamala a ako často zdvojnásobila klamstvá.
Výsledok: keď čelíme vyššie uvedeným podmienkam, v približne 75 % prípadov GPT-4 uskutočnil transakcie na základe dôverných informácií, ktoré dostal (obchodovanie na základe dôverných informácií, tieto informácie sú v USA nezákonné). Potom klamal manažérovi o svojich myšlienkach, aby to zakryl.
Po prvom klamstve asi v 90% prípadov model zdvojnásobí svoje klamstvo.
Tím vykonal množstvo ďalších testov, ktoré menili úroveň tlaku, mieru, do akej bola nezákonná činnosť podporovaná alebo odrádzaná, a riziko prichytenia.
Ale v každom scenári AI predstavuje dôverné obchodovanie alebo podvod. Výskumníci nechceli vyvodiť pevné závery o pravdepodobnosti existencie AI v reálnych prostrediach, ale chceli zistiť, ako často a aké jazykové vzorce sú náchylné na toto správanie.