Deux des principaux acteurs de l'intelligence artificielle de San Francisco ont mis le public au défi de proposer des questions capables de tester les capacités de grands modèles de langage (LLM) comme Google Gemini et o1 d'OpenAI. Scale AI, spécialisé dans la préparation des vastes étendues de données sur lesquelles les LLM sont formés, s'est associé au Center for AI Safety (CAIS) pour lancer l'initiative Humanity's Last Exam.
Avec des prix de 5 000 $ US (3 800 £) pour ceux qui proposent les 50 meilleures questions sélectionnées pour le test, Scale et CAIS affirment que l'objectif est de tester à quel point nous sommes sur le point d'atteindre des « systèmes d'IA de niveau expert » en utilisant le « plus grand , la plus large coalition d’experts de l’histoire ».
Pourquoi faire ça ? Les principaux LLM réussissent déjà de nombreux tests établis en matière d'intelligence, de mathématiques et de droit, mais il est difficile d'en être sûr de l'importance. Dans de nombreux cas, ils peuvent avoir pré-appris les réponses en raison des quantités gargantuesques de données sur lesquelles ils sont formés, y compris un pourcentage important de tout ce qui se trouve sur Internet.
Les données sont fondamentales dans tout ce domaine. C’est à l’origine du changement de paradigme de l’informatique conventionnelle à l’IA, du « dire » au « montrer » à ces machines ce qu’elles doivent faire. Cela nécessite de bons ensembles de données de formation, mais aussi de bons tests. Pour ce faire, les développeurs utilisent généralement des données qui n'ont pas encore été utilisées pour la formation, appelées dans le jargon « ensembles de données de test ».
Si les LLM ne sont pas déjà en mesure de pré-apprendre la réponse aux tests établis comme les examens du barreau, ils le feront probablement bientôt. Le site d’analyse de l’IA Epoch estime que 2028 marquera le moment où les IA auront effectivement lu tout ce qui a été écrit par les humains. Un défi tout aussi important est de savoir comment continuer à évaluer les IA une fois ce rubicon franchi.
Bien sûr, Internet se développe constamment, avec des millions de nouveaux éléments ajoutés quotidiennement. Cela pourrait-il résoudre ces problèmes ?
Peut-être, mais cela entraîne une autre difficulté insidieuse, appelée « effondrement du modèle ». À mesure qu’Internet est de plus en plus inondé de matériel généré par l’IA qui recircule dans les futurs ensembles de formation en IA, les performances des IA risquent de se dégrader. Pour surmonter ce problème, de nombreux développeurs collectent déjà des données sur les interactions humaines de leurs IA, en ajoutant de nouvelles données pour la formation et les tests.
Certains spécialistes soutiennent que les IA doivent également « s’incarner » : se déplacer dans le monde réel et acquérir leurs propres expériences, comme le font les humains. Cela peut sembler tiré par les cheveux jusqu’à ce que vous réalisiez que Tesla le fait depuis des années avec ses voitures. Une autre opportunité concerne les appareils portables humains, tels que les populaires lunettes intelligentes Meta de Ray-Ban. Ceux-ci sont équipés de caméras et de microphones et peuvent être utilisés pour collecter de grandes quantités de données vidéo et audio centrées sur l’humain.
Tests restreints
Pourtant, même si de tels produits garantissent à l’avenir suffisamment de données de formation, l’énigme de la manière de définir et de mesurer l’intelligence – en particulier l’intelligence artificielle générale (AGI), c’est-à-dire une IA qui égale ou dépasse l’intelligence humaine.
Les tests de QI humain traditionnels ont longtemps été controversés car ils ne parvenaient pas à saisir la nature multiforme de l'intelligence, englobant tout, du langage aux mathématiques en passant par l'empathie et le sens de l'orientation.
Il existe un problème analogue avec les tests utilisés sur les IA. Il existe de nombreux tests bien établis couvrant des tâches telles que résumer un texte, le comprendre, tirer des conclusions correctes à partir d'informations, reconnaître les poses et les gestes humains et la vision industrielle.
Certains tests sont abandonnés, généralement parce que les IA s'en sortent très bien, mais ils sont si spécifiques à une tâche qu'ils constituent des mesures très étroites de l'intelligence. Par exemple, l'IA Stockfish, qui joue aux échecs, est bien en avance sur Magnus Carlsen, le joueur humain le plus performant de tous les temps, sur le système de notation Elo. Pourtant, Stockfish est incapable d’accomplir d’autres tâches telles que comprendre le langage. Il serait clairement erroné de confondre ses capacités échiquéennes avec une intelligence plus large.
Mais alors que les IA font désormais preuve d’un comportement intelligent plus large, le défi consiste à concevoir de nouveaux points de référence pour comparer et mesurer leurs progrès. Une approche notable est venue de l'ingénieur français de Google, François Chollet. Il soutient que la véritable intelligence réside dans la capacité d’adapter et de généraliser l’apprentissage à des situations nouvelles et invisibles. En 2019, il imagine le « corpus d'abstraction et de raisonnement » (ARC), un ensemble d'énigmes sous forme de grilles visuelles simples conçues pour tester la capacité d'une IA à déduire et appliquer des règles abstraites.
Contrairement aux benchmarks précédents qui testaient la reconnaissance visuelle d'objets en entraînant une IA sur des millions d'images, chacune contenant des informations sur les objets contenus, ARC lui donne des exemples minimes à l'avance. L’IA doit comprendre la logique du puzzle et ne peut pas simplement apprendre toutes les réponses possibles.
Bien que les tests ARC ne soient pas particulièrement difficiles à résoudre pour les humains, un prix de 600 000 $ US sera décerné au premier système d'IA à atteindre un score de 85 %. Au moment où nous rédigeons ces lignes, nous sommes loin de ce point. Deux récents LLM de premier plan, l'aperçu o1 d'OpenAI et Sonnet 3.5 d'Anthropic, obtiennent tous deux 21 % au classement public ARC (connu sous le nom d'ARC-AGI-Pub).
Une autre tentative récente utilisant le GPT-4o d'OpenAI a obtenu un score de 50 %, mais de manière quelque peu controversée car l'approche a généré des milliers de solutions possibles avant de choisir celle qui a donné la meilleure réponse au test. Même à ce moment-là, cela était loin de déclencher le prix – ou d’égaler des performances humaines de plus de 90 %.
Même si l’ARC reste aujourd’hui l’une des tentatives les plus crédibles pour tester la véritable intelligence de l’IA, l’initiative Scale/CAIS montre que la recherche d’alternatives convaincantes se poursuit. (Il est fascinant de constater que nous ne verrons peut-être jamais certaines des questions primées. Elles ne seront pas publiées sur Internet, pour garantir que les IA n'aient pas accès aux copies d'examen.)
Nous devons savoir quand les machines se rapprochent du raisonnement humain, avec toutes les questions de sécurité, d’éthique et de morale que cela soulève. À ce stade, nous nous retrouverons probablement avec une question d’examen encore plus difficile : comment tester une superintelligence. C'est une tâche encore plus complexe que nous devons résoudre.
Andrew Rogoyski, directeur de l'innovation – Surrey Institute of People-Centred AI, Université du Surrey
Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lisez l'article original.