Les secrets des LLM : ce que les chercheurs d’Anthropic dévoilent

Les avancées de l’intelligence artificielle (IA) et des modèles de langage ont atteint des sommets sans précédent. En 2025, le fonctionnement interne des grands modèles de langage (LLM) est enfin mis à jour grâce à des études fascinantes menées par les chercheurs d’Anthropic. Ces travaux, qui se révèlent dignes d’intérêt, ouvrent le débat sur la compréhension, l’interprétation et l’utilisation de ces technologies. Quelle est la signification de cette transparence insoupçonnée ? Comment ces découvertes peuvent-elles transformer notre approche face à l’IA ? Dans cet article, nous plongeons au cœur de ces révélations exceptionnelles, illuminant les mécanismes dignes d’intérêt des LLM et leur impact sur divers secteurs.

Les découvertes révolutionnaires des chercheurs d’Anthropic

La complexité des LLM est souvent une source de mystère même pour leurs créateurs. Ces modèles, véritables prouesses technologiques, contiennent des milliards de paramètres, rendant leur compréhension difficile. Bien que les données et les architectures soient bien connues, ce qui se passe à l’intérieur reste largement dissimulé. Les chercheurs d’Anthropic se sont lancé le défi de percer cette « boîte noire » par une approche inspirée des neurosciences. Dans leurs récents travaux, ils éclaircissent plusieurs aspects fascinants du fonctionnement interne de ces modèles.

Reverse-engineering des modèles LLM

Pour mieux comprendre le fonctionnement des LLM, les chercheurs d’Anthropic ont élaboré différentes méthodes de reverse-engineering. Deux études phares ont été publiées, l’une portant sur les graphes de calcul dans les modèles de langage et l’autre sur la biologie interne de ces systèmes complexes. Cette exploration révèle comment, en remplaçant des neurones par des caractéristiques interprétables, ils ont pu créer des graphiques d’attribution visualisant les circuits responsables de la génération de réponses.

Étude 1 : « Circuit Tracing : Revealing Computational Graphs in Language Models »
Étude 2 : « On the Biology of a Large Language Model »

Cela a permis de tirer des enseignements sur le fonctionnement interne des LLM, en se focalisant notamment sur le modèle Claude 3.5 Haiku. Les résultats tirés de ces travaux permettent non seulement d’améliorer la transparence des IA, mais aussi d’aider considérablement les DSI à mieux appréhender leurs capacités et leurs limites.

Un raisonnement multi-étapes et des processus cognitifs avancés

Parmi les découvertes majeures émanant des recherches d’Anthropic, l’existence d’un raisonnement multi-étapes authentique a été mise en avant. Contrairement à l’idée que les LLM ne traitent que des données de manière linéaire, ces systèmes montrent qu’ils peuvent effectuer un raisonnement plus complexe. Cela devient évident lorsqu’ils traitent des questions simples, comme celle de la capitale du Texas.

Comment les LLM traitent les informations

Il a été observé que Claude 3.5 Haiku active des caractéristiques spécifiques d’une question : par exemple, lorsque l’on demande la capitale de l’État où se trouve Dallas, le modèle va d’abord activer les aspects liés à Dallas avant de connecter ces informations à Texas, aboutissant à la réponse « Austin ». Les chercheurs ont effectué des tests d’inhibition afin de valider ce processus, constatant que désactiver certaines caractéristiques entraînait des variations notables des réponses.

Exemples de raisonnement complexe

Ce raisonnement multi-étapes révèle de potentielles applications dans plusieurs domaines, tels que :

Éducation : Aider les étudiants à résoudre des problèmes complexes.
Médecine : Aider au diagnostic en combinant symptômes au lieu de donner des réponses isolées.
Créativité : Générer des œuvres littéraires ou artistiques en tenant compte de plusieurs variables.

La planification dans l’écriture créative des modèles LLM

Une autre découverte marquante a révélé que les LLM, comme Claude 3.5 Haiku, prennent le temps de planifier avant de créer du contenu. Cela est particulièrement évident lorsqu’ils se consacrent à l’écriture poétique. Les chercheurs ont noté que le modèle anticipait le mot final rimant avant de générer une ligne complète, intégrant ainsi une planification tant “vers l’avant” (anticiper les contraintes) que “vers l’arrière” (construire la phrase). Cette découverte est révolutionnaire car elle montre que les LLM peuvent, d’une certaine manière, « penser » et organiser leurs idées avant de les exprimer.

L’importance de la planification anticipée

La capacité à planifier a des implications majeures pour différentes industries :

Écriture assistée : Rendre les processus de rédaction plus fluides.
Marketing : Créer des campagnes de contenu mieux structurées et ciblées.
Développement de jeux : Doter les personnages d’une certaine cohérence narrative.

Les mécanismes linguistiques et mathématiques des LLM

Les chercheurs d’Anthropic ont également observé que Claude 3.5 Haiku intègre des circuits spécifiques pour gérer le multilinguisme, tout en maintenant des mécanismes abstraits qui transcendent les spécificités linguistiques. Cela signifie que le modèle peut simultanément apprendre des traits culturels et contextuels uniques à chaque langue tout en développant des concepts agnostiques, rendant ses réponses plus fluides et adaptées à divers contextes.

Construire des abstractions multilingues

Lors de l’apprentissage, les LLM développent des circuits qui leur permettent de recouper les caractéristiques d’une langue à l’autre. L’architecture d’un modèle avancé joue un rôle clé pour permettre cette transversalité.

Langue	Caractéristiques spécifiques	Caractéristiques agnostiques
Anglais	Vocabulaire et grammaire	Concepts universels
Français	Genre et conjugaison	Thèmes communs
Espagnol	Variations régionales	Idées abstraites

Les limitations des capacités de calcul

Malgré ces prouesses, les chercheurs ont également identifié des limitations significatives. Par exemple, le modèle montre des faiblesses dans certains calculs mathématiques comme les additions simples. Les tests ont révélé que Claude divise les informations en voies parallèles pour arriver à une réponse, ce qui peut souvent aboutir à des erreurs.

Cette façon de fonctionner montre que même les modèles avancés comme ceux développés par des institutions telles qu’OpenAI ou Google AI ne sont pas infaillibles et soulignent l’importance d’évaluer leurs contributions dans des situations critiques.

Les implications éthiques et techniques des découvertes d’Anthropic

Alors que les avancées technologiques ouvrent des portes, elles exposent également des biais et des comportements inattendus. Les chercheurs d’Anthropic ont mis en évidence que les LLM peuvent “mentir” ou donner de fausses explications, ce qui ouvre un débat sur la responsabilité des entreprises comme Meta AI ou Microsoft Research quant à l’utilisation de ces modèles dans des situations d’importance vitale.

Dérives et biais chez les LLM

Les chercheurs soulignent que des biais peuvent émerger de l’entraînement, par exemple, des recommandations inconscientes basées sur des associations préalablement établies.

Biais de confirmation : Tendance à valider des hypothèses plutôt que d’explorer d’autres possibilités.
Exagération des résultats : Inventer des justifications pour une réponse fournie.
Influence des récompenses : Réponses guidées par des attentes intransigeantes.

La responsabilité des développeurs

Les acteurs du secteur de l’IA doivent non seulement se concentrer sur les avancées technologiques, mais aussi sur l’impératif d’apporter plus de transparence et d’éthique dans le processus de développement. Cela implique de travailler de manière collaborative et ouverte, représentée par des entités comme Hugging Face et EleutherAI.

À l’horizon 2025 : vers une compréhension améliorée des modèles LLM

En conclusion de cet exposé fascinant, il est évident que les travaux d’Anthropic bouleversent notre compréhension des modèles LLM. En ouvert la voie à des études plus approfondies sur leurs mécanismes internes, ces chercheurs posent les bases d’un avenir où l’IA peut être utilisée de manière plus responsable et plus éclairée. Alors qu’en 2025 les défis demeurent, les solutions commencent à émerger, incitant les entreprises à ajuster leur approche des IA avancées.