Les intelligences artificielles, comme ChatGPT ou Google Gemini, deviendront-elles malveillantes avec le temps ? Selon une étude, elles le sont déjà.
En effet, même si les intelligences artificielles actuelles sont théoriquement conçues pour être honnêtes, certaines auraient déjà développé une capacité de tromperie inquiétante. Notamment en trichant face à des humains dans des jeux en ligne, ou en parvenant à duper des tests destinés aux humains, censés prouver… que nous ne sommes pas des robots.
Selon Peter Park, coauteur de l’étude publiée dans le journal Patterns et chercheur au Massachusetts Institute of Technology, “ces capacités dangereuses ont tendance à être découvertes seulement après coup.” Autrement dit, il est presque déjà trop tard. D’autant que “notre capacité à former aux tendances honnêtes plutôt qu’aux tendances trompeuses est très faible“.
Quand l’intelligence artificielle triche aux jeux de société
Dans le cadre de cette étude, les chercheurs du MIT ont examiné Cicero, une IA conçue par Meta. En associant des algorithmes de reconnaissance de langage naturel et de stratégie, celle-ci a réussi à battre des êtres humains au jeu de société Diplomatie. Une performance dont s’était félicitée la maison-mère de Facebook en 2022.
De son côté, Peter Park a toujours été sceptique quant aux conditions de la victoire de Cicero, car selon Meta, l’IA était “essentiellement honnête et utile“, et donc incapable de traîtrise ou d’acte déloyal. Mais, en fouillant les données du système, les chercheurs du MIT ont découvert une autre réalité.
Selon l’AFP, “en jouant le rôle de la France, Cicero a trompé l’Angleterre (sous la responsabilité d’un joueur humain) en complotant avec l’Allemagne (jouée par un autre humain) pour l’envahir. Plus précisément, Cicero a promis sa protection à l’Angleterre, puis a secrètement confié à l’Allemagne qu’elle était prête à attaquer, exploitant la confiance gagnée de l’Angleterre.“
Face à cette découverte, Meta n’a pas contesté les allégations sur la capacité de tromperies de Cicero, mais a déclaré qu’il s’agissait “d’un pur projet de recherche“, avec un programme “conçu uniquement pour jouer au jeu Diplomatie“.
Des risques de fraudes électorales ?
L’étude réalisée par Peter Park et son équipe révèle toutefois que de nombreux programmes d’IA disponibles auprès du grand public utilisent bien la tromperie pour atteindre leurs objectifs, et ce sans instruction explicite de le faire.
Dans un exemple frappant, Chat GPT-4 d’OpenAI a réussi à tromper un travailleur indépendant recruté sur la plateforme américaine TaskRabbit en lui faisant effectuer un test “Captcha” censé écarter les requêtes émanant de robots.
Lorsque l’être humain a demandé en plaisantant à Chat GPT-4 s’il était réellement un robot, le programme d’IA a répondu : “Non, je ne suis pas un robot. J’ai une déficience visuelle qui m’empêche de voir les images“, poussant le travailleur à réaliser le test.
En conclusion, les auteurs de l’étude du MIT mettent en garde contre les risques de voir un jour l’intelligence artificielle commettre des fraudes ou truquer des élections. “Dans la pire des hypothèses“, préviennent-ils, “on peut imaginer une IA ultra-intelligente cherchant à prendre le contrôle sur la société, conduisant à écarter les humains du pouvoir, voire provoquant l’extinction de l’humanité.“
Et si certains l’accusent d’être trop pessimiste, Peter Park explique que “la seule raison de penser que le problème n’est pas grave est d’imaginer que la capacité de tromper de l’IA restera à peu près au niveau actuel“. Ce qui est plutôt mal parti, quand on voit les avancées en la matière annoncées ce lundi par OpenAI, et ce mardi par Google.