Une étude menée par Anthropic en partenariat avec le UK AI Security Institute et le Alan Turing Institute révèle qu’il suffit d’environ 250 documents malveillants intégrés dans les données d’entraînement pour insérer une porte dérobée dans un modèle de langage, quelle que soit sa taille.
Ce résultat surprenant remet en cause l’idée selon laquelle les grands modèles seraient plus résistants aux manipulations. Les chercheurs ont constaté que le nombre d’exemples nécessaires reste quasiment constant, qu’il s’agisse d’un modèle de 600 millions ou de 13 milliards de paramètres.
Cette méthode, appelée « data poisoning », consiste à insérer des données intentionnellement corrompues dans la phase de pré-entraînement. Lorsqu’un mot ou un signal précis apparaît, le modèle réagit de manière anormale, générant par exemple du texte incohérent ou inapproprié.

Compromission difficile à détecter
En revanche, en l’absence de ce déclencheur, il fonctionne de manière tout à fait normale, rendant la compromission difficile à détecter. L’étude montre surtout que ce type d’attaque ne dépend pas de la proportion de données empoisonnées, mais du nombre absolu de documents malveillants utilisés.
Ces résultats bouleversent la compréhension actuelle de la sécurité des LLMs. Les chercheurs préviennent : « nous partageons ces résultats pour montrer que les attaques de data poisoning peuvent être plus efficaces qu’on ne le croyait ». Plusieurs pistes de défense sont envisagées, comme un nettoyage approfondi des ensembles de données, un filtrage automatique ou encore un fine-tuning correctif, mais leur efficacité à grande échelle reste incertaine.
Cette découverte marque un tournant pour la recherche en intelligence artificielle. Elle montre que la robustesse des modèles ne dépend pas uniquement de leur taille, mais surtout de la qualité et de la fiabilité des données utilisées. Les concepteurs de LLMs devront désormais renforcer leurs processus de vérification pour prévenir ce type d’attaque discrète mais redoutablement efficace.
Laisser un commentaire