Le verdict est sans appel : une étude de l’Oxford Internet Institute révèle que les outils servant à évaluer les performances des intelligences artificielles sont souvent biaisés, incomplets ou mal conçus. Les chercheurs ont analysé plus de 445 benchmarks censés mesurer des compétences en raisonnement, en codage ou en logique, et ont constaté que beaucoup ne testent pas réellement ce qu’ils prétendent évaluer.
Les auteurs dénoncent des définitions floues, un manque de transparence méthodologique et des cas de contamination de données, lorsque les modèles apprennent à « mémoriser » plutôt qu’à raisonner. L’exemple du test GSM8K illustre bien le problème : supposé mesurer le raisonnement mathématique complexe, il ne permet pas de vérifier si un modèle comprend véritablement les étapes logiques des calculs.
L’étude montre aussi que nombre de benchmarks sont saturés. Les modèles y obtiennent de bons résultats simplement parce qu’ils ont déjà été exposés à des questions similaires durant leur entraînement. Plus inquiétant encore, seuls 16 % des outils analysés reposent sur des méthodes statistiques solides permettant de valider leurs conclusions.
Cette situation survient alors même que les entreprises annoncent à grand renfort de communication des « modèles super-intelligents ». Les chercheurs mettent donc en garde contre la surestimation des capacités réelles de ces systèmes, surtout lorsqu’ils sont utilisés dans des domaines sensibles comme la santé, la justice ou la finance. Des évaluations biaisées peuvent conduire à des décisions erronées, d’autant plus que les utilisateurs doivent encore vérifier manuellement les résultats fournis par ces IA censées automatiser l’analyse.
Les auteurs appellent à une refonte en profondeur des méthodes d’évaluation : clarifier les objectifs, concevoir des jeux de données vierges, instaurer des audits indépendants et privilégier des benchmarks dynamiques, capables d’évoluer avec la technologie. Au-delà de la technique, cette réflexion touche à l’éthique, à la gouvernance et à la confiance que les sociétés accordent à l’intelligence artificielle.