Intelligence Artificielle : Une Nouvelle Architecture Neuronale Révolutionnaire
Des chercheurs ont développé une nouvelle architecture pour l’intelligence artificielle générative, qui consomme beaucoup moins de puissance de calcul que les modèles actuels. Le secret réside dans l’imbriquement des réseaux neuronaux les uns dans les autres.
Un réseau neuronal dans un réseau neuronal
L’intelligence artificielle cherche à imiter le fonctionnement du cerveau humain ou du moins sa logique…
Les intelligences artificielles génératives, telles que ChatGPT, Dall-E, Sora d’OpenAI, ainsi que Gemini de Google et Claude d’Anthropic, sont réputées pour leur consommation élevée en puissance de calcul et en énergie. Elon Musk a même prédit récemment qu’une pénurie d’électricité mondiale pourrait survenir dans l’année à venir en raison de cette forte demande.
L’informatique neuromorphique, qui imite le cerveau humain, est considérée comme la voie royale pour créer des machines plus performantes et moins énergivores. © Futura Pour répondre à ce défi, une équipe de chercheurs des universités de Stanford, San Diego et Berkeley, en collaboration avec Meta, propose une nouvelle architecture appelée Test-Time Training (TTT). Cette architecture utilise des réseaux neuronaux récurrents (RNN). Les IA génératives actuelles reposent principalement sur l’architecture Transformer, dont la complexité quadratique signifie que la puissance de calcul requise augmente proportionnellement au carré de la quantité de données en entrée.
Une avancée majeure avec l’architecture TTT
La nouvelle architecture TTT surmonte cette limitation en intégrant une IA dans une autre IA. Dans les couches de TTT, les états cachés contiennent des modèles d’apprentissage automatique. Ces modèles peuvent être ajustés pour mieux correspondre au contexte des données en entrée via un apprentissage auto-supervisé continu. Contrairement à l’architecture Transformer, TTT apprend de manière continue.
Le résultat est une IA avec une complexité linéaire, c’est-à-dire que la puissance de calcul nécessaire est directement proportionnelle à la quantité de données en entrée, ce qui est beaucoup plus efficace que l’architecture Transformer. Cependant, les chercheurs n’ont testé que deux petits modèles pour le moment. Des recherches supplémentaires sont nécessaires pour déterminer si l’architecture TTT peut rivaliser en termes de performances avec les IA basées sur Transformer.
Par Edward Back, journaliste hi-tech, le 18 juillet 2024 , FUTURA SCIENCES