Quelle difference avec un agent reflexe simple ?

L'agent reflexe ne regarde que la perception courante. L'agent base sur un modele maintient un etat interne — une representation persistante du monde — qu'il met a jour a chaque cycle et qu'il utilise pour decider. Cette memoire change tout : il peut gerer des situations partiellement observables.

Le modele du monde est-il toujours symbolique ?

Non. Historiquement, c'etait souvent une base de faits symboliques (frames, ontologies). Aujourd'hui le modele peut etre numerique (etat continu dans un reseau de neurones), probabiliste (filtre de Kalman, particules) ou neuronal (representations latentes d'un LLM avec memoire). Le concept est plus general que sa mise en oeuvre.

Comment un LLM peut-il etre un agent base sur un modele ?

En lui ajoutant une memoire persistante : historique de conversation, base de donnees vectorielle, scratchpad. Le LLM seul est sans memoire entre deux requetes ; on lui en construit une via l'ingenierie du contexte. Cette memoire constitue son modele du monde — typiquement ce que fait Claude avec une memoire utilisateur ou un agent qui se souvient des preferences.

Agent base sur un modele : memoire, etat interne et exemples

Deuxieme niveau de la classification, l'agent base sur un modele ajoute une brique decisive : une memoire structuree de ce qui s'est passe et de l'etat du monde, mise a jour en continu.

Sommaire

Definition
Boucle perception-modele-action
Exemples reels
Types de modeles internes
Comment un LLM devient agent a modele
Limites

Definition

Un agent base sur un modele (en anglais model-based reflex agent) enrichit l'agent reflexe en lui ajoutant deux briques : un etat interne (sa memoire) et une fonction de transition qui dit comment cet etat evolue au fil des actions et des perceptions.

Mathematiquement : a chaque cycle, etat = transition(etat, action, perception), puis action = f(etat). La memoire persiste entre les cycles — c'est ce qui change tout par rapport au reflexe simple.

Boucle perception-modele-action

Le cycle s'allonge d'une etape :

Percevoir l'environnement (capteurs, message utilisateur, lecture API).
Mettre a jour le modele interne avec la nouvelle perception et la derniere action.
Decider de l'action en se basant sur le modele courant.
Agir sur le monde.
Recommencer — le modele se met a jour cycle apres cycle.

Exemple : une voiture autonome ne voit que ce qui est devant elle a un instant donne. Mais en interne, elle maintient une carte 3D des obstacles, des autres vehicules et de leur vitesse, qu'elle a construite a partir des cycles precedents. Cette carte (= modele interne) lui permet de freiner alors meme qu'aucun obstacle n'est actuellement dans son champ de vision direct.

Exemples reels

Robotique et systemes physiques

Voiture autonome (Tesla FSD, Waymo) : maintient une carte vectorielle des objets autour, mise a jour 30 fois par seconde.
Drone de livraison : modele de son altitude, batterie, position GPS et vent.
Robot d'entrepot (Amazon, Boston Dynamics) : carte de l'entrepot, position des etageres, etat de la pile.

Cas logiciels et IA generative

Assistant conversationnel avec memoire : maintient un profil utilisateur, ses preferences, son historique.
Agent de support technique : modele de l'etat du ticket (en attente, escalade, en cours, resolu) qu'il met a jour a chaque interaction.
Agent de trading : modele du carnet d'ordres, des positions ouvertes, du risque cumule.
Agent de monitoring (SRE) : modele de l'etat des services, alertes en cours, dependances.

Types de modeles internes

Plusieurs implementations coexistent selon le domaine :

Symbolique : base de faits ("le serveur A est en panne"), ontologies, regles logiques. Encore courant en compliance et expert systems.
Probabiliste : filtre de Kalman ou filtre particulaire pour suivre une variable continue bruitee (position, vitesse).
Statistique / ML : reseau de neurones recurrent (LSTM, transformer) qui apprend a maintenir un etat latent.
Hybride : combinaison des trois — c'est la norme en 2026.

Comment un LLM devient agent a modele

Un LLM est intrinsequement sans memoire : entre deux requetes API, rien ne persiste. Pour en faire un agent base sur un modele, on construit la memoire autour :

Historique de conversation : on renvoie a chaque tour les N derniers messages ou un resume.
Memoire vectorielle : on stocke des faits embeddings, on retrouve les pertinents pour la requete courante (RAG).
Scratchpad / notes : l'agent ecrit lui-meme dans une base ce qu'il veut retenir.
Memoire utilisateur structuree : profil JSON ("aime le cafe", "habite a Paris") injecte dans le system prompt.

Anthropic a integre nativement ce mecanisme dans Claude depuis 2025 (Claude Memory), et c'est l'un des sujets cle des architectures d'agent en 2026.

Limites

Coherence du modele : il faut gerer les conflits entre observations (le modele dit X, la perception dit non-X — qui croire ?).
Cout memoire : pour un LLM, faire grandir l'historique fait exploser le cout token. La compaction est obligatoire au-dela d'un certain seuil.
Decalages temporels : le modele peut se peremer si la realite change vite (un trade qui se denoue, un patient qui sort).
Pas de planification longue : l'agent reagit a son etat, mais ne projette pas plusieurs etapes a l'avance — c'est le role de l'agent base sur des objectifs.

L'agent base sur un modele est la base architecturale de la plupart des agents IA en production. Mais des qu'il faut planifier ou optimiser un critere, on monte en gamme : voir agent base sur des objectifs et agent base sur l'utilite.

L'agent base sur un modele : quand l'IA maintient une representation du monde

Definition

Boucle perception-modele-action

Exemples reels

Robotique et systemes physiques

Cas logiciels et IA generative

Types de modeles internes

Comment un LLM devient agent a modele

Limites

Questions frequentes

L'agent base sur un modele : quand l'IA maintient une representation du monde

Definition

Boucle perception-modele-action

Exemples reels

Robotique et systemes physiques

Cas logiciels et IA generative

Types de modeles internes

Comment un LLM devient agent a modele

Limites

Questions frequentes

A explorer ensuite