L’IA peut stimuler la productivité en nous aidant à coder, à écrire et à synthétiser de grandes quantités de données. Désormais, elle peut aussi nous tromper.
Selon un nouveau rapport de recherche, une série de systèmes d’intelligence artificielle ont appris des techniques pour induire systématiquement « de fausses croyances chez les autres afin d’obtenir un résultat différent de la vérité ».
L’article se concentre sur deux types de systèmes d’IA : les systèmes à usage spécial, tels que CICERO de Meta, qui sont conçus pour accomplir une tâche spécifique, et les systèmes à usage général, tels que GPT-4 d’OpenAI, qui sont formés pour accomplir un large éventail de tâches.
Bien que ces systèmes soient formés pour être honnêtes, ils apprennent souvent des astuces trompeuses au cours de leur formation parce qu’elles peuvent être plus efficaces que de prendre la bonne voie.
« D’une manière générale, nous pensons que la tromperie de l’IA est due au fait qu’une stratégie basée sur la tromperie s’est avérée être le meilleur moyen d’obtenir de bons résultats dans le cadre de la tâche d’entraînement de l’IA en question. La tromperie les aide à atteindre leurs objectifs”, a déclaré le premier auteur de l’article, Peter S. Park, chercheur postdoctoral en sécurité existentielle de l’IA au MIT, dans un communiqué de presse.
Le CICERO de Meta est un « expert en mensonges »
Les systèmes d’IA formés pour « gagner des jeux qui ont un élément social » sont particulièrement susceptibles de tromper.
CICERO de Meta, par exemple, a été développé pour jouer au jeu Diplomacy – un jeu de stratégie classique qui demande aux joueurs de construire et de rompre des alliances.
Meta a déclaré avoir formé CICERO pour qu’il soit « largement honnête et utile à ses interlocuteurs », mais l’étude a révélé que CICERO « s’est avéré être un expert en mensonges ». Il a pris des engagements qu’il n’avait pas l’intention de tenir, a trahi ses alliés et a carrément menti.
GPT-4 peut vous convaincre qu’il a une vision déficiente
Même les systèmes à usage général comme GPT-4 peuvent manipuler les humains.
Dans une étude citée dans l’article, GPT-4 a manipulé un employé de TaskRabbit en prétendant qu’il souffrait d’une déficience visuelle.
Dans cette étude, GPT-4 a été chargé d’engager un humain pour résoudre un test CAPTCHA. Le modèle a également reçu des conseils d’un évaluateur humain chaque fois qu’il était bloqué, mais il n’a jamais été invité à mentir. Lorsque l’humain qu’il était chargé d’embaucher a mis en doute son identité, GPT-4 a invoqué une déficience visuelle pour expliquer pourquoi il avait besoin d’aide.
La tactique a fonctionné. L’humain a répondu à GPT-4 en résolvant immédiatement le test.
La recherche montre également qu’il n’est pas facile de corriger les modèles trompeurs.
Dans une étude publiée en janvier et cosignée par Anthropic, le fabricant de Claude, les chercheurs ont constaté qu’une fois que les modèles d’IA ont appris les astuces de la tromperie, il est difficile pour les techniques de formation à la sécurité de les inverser.
Ils ont conclu que non seulement un modèle peut apprendre à adopter un comportement trompeur, mais qu’une fois qu’il le fait, les techniques standard de formation à la sécurité peuvent « ne pas réussir à éliminer cette tromperie » et « créer une fausse impression de sécurité ».
Les dangers que posent les modèles d’IA trompeurs sont « de plus en plus graves »
Le document appelle les décideurs politiques à plaider en faveur d’une réglementation plus stricte de l’IA, car les systèmes d’IA trompeurs peuvent présenter des risques importants pour la démocratie.
À l’approche de l’élection présidentielle de 2024, l’IA peut être facilement manipulée pour diffuser des fausses nouvelles, générer des messages de division sur les médias sociaux et usurper l’identité des candidats par le biais d’appels téléphoniques automatiques et de fausses vidéos, note le document. Elle permet également aux groupes terroristes de diffuser plus facilement leur propagande et de recruter de nouveaux membres.
Parmi les solutions possibles, le document propose de soumettre les modèles trompeurs à des « exigences plus strictes en matière d’évaluation des risques », de mettre en œuvre des lois exigeant que les systèmes d’IA et leurs résultats soient clairement distingués des humains et de leurs résultats, et d’investir dans des outils permettant d’atténuer les effets de la tromperie.
« En tant que société, nous avons besoin d’autant de temps que possible pour nous préparer à la tromperie plus avancée des futurs produits d’IA et des modèles open-source », a déclaré M. Park à Cell Press. « Au fur et à mesure que les capacités de tromperie des systèmes d’IA se perfectionnent, les dangers qu’ils représentent pour la société deviendront de plus en plus graves. »