L'agent base sur des objectifs : la planification au coeur de la decision
Troisieme niveau de la classification, l'agent base sur des objectifs ne se contente plus de reagir : il projette mentalement plusieurs etapes pour atteindre un but explicite.
Definition
Un agent base sur des objectifs (en anglais goal-based agent) est un agent dote, en plus de son modele du monde, d'une representation explicite du but a atteindre. Il choisit ses actions non pas par reflexe, mais en planifiant : il imagine plusieurs sequences d'actions et selectionne celle qui mene au but.
Mathematiquement, on definit un but G (un etat ou un ensemble d'etats), et un
espace d'actions A. La fonction de decision devient :
plan = recherche(etat_initial, G, A), puis action = plan[0].
L'agent execute la premiere action du plan, observe le resultat, replanifie si necessaire.
Architecture de planification
- Definir l'objectif : un etat-cible ou une condition a satisfaire.
- Maintenir un modele du monde (heritage de l'agent base sur un modele).
- Generer un plan : une sequence d'actions qui menent du modele courant au but.
- Executer la premiere etape du plan.
- Observer le resultat, mettre a jour le modele.
- Replanifier si necessaire (le monde a change, une etape a echoue).
Exemple : un GPS doit vous mener du point A au point B. Il maintient un modele du reseau routier (graphe), une representation du but (l'adresse de destination) et il calcule un plan (l'itineraire optimal). Si vous tournez ailleurs (echec d'etape), il replanifie en temps reel.
Exemples concrets
Domaines historiques
- GPS et applications de navigation (Google Maps, Waze) : planificateurs A* ou Dijkstra sur graphe routier.
- Robotique mobile : planification de chemin dans un environnement (RRT, PRM).
- Systemes de manufacturing : planification d'ordres de production, scheduler d'usine.
- Jeux video : IA des PNJ qui doivent atteindre un objectif (cf. jeux Bethesda, Total War).
Cas IA generative 2026
- Agent de recherche profonde (deep research) : objectif = "produire un rapport sur X", plan = decomposer en sous-questions, explorer chaque source, synthetiser.
- Agent de codage autonome (Claude Code, Cursor agent) : objectif = "ajouter la fonctionnalite F", plan = analyser le code, modifier les fichiers, lancer les tests, corriger les echecs.
- Agent d'orchestration commerciale : objectif = "qualifier ce lead", plan = enrichir, scorer, envoyer le bon email, prendre RDV.
Techniques de planification
- Recherche dans un graphe : A*, IDA*, Dijkstra. Optimaux pour les domaines bien formalises (navigation, jeux).
- STRIPS / PDDL : langage de planification classique, encore utilise dans l'industrie et la recherche.
- Planification hierarchique (HTN) : decomposer en sous-objectifs — voir agent hierarchique.
- Monte Carlo Tree Search (MCTS) : explorer aleatoirement et exploiter les branches prometteuses. Brique cle d'AlphaGo, AlphaZero.
- Planification par LLM : prompt structurant la decomposition en etapes, avec parfois un format JSON.
Planification avec un LLM
Les LLM sont remarquablement bons pour planifier en langue naturelle, a condition de leur donner le bon cadre. Quelques patterns :
- Chain-of-thought structure : "1. Comprendre le but. 2. Lister les etapes necessaires. 3. Pour chaque etape, identifier l'outil. 4. Executer."
- ReAct (Reason + Act) : alterner explicitement raisonnement et action, avec balises <thought> et <action>.
- Reflexion : apres chaque etape, l'agent evalue si elle a contribue au but et corrige si necessaire.
- Plan-and-execute : un LLM "planificateur" emet le plan complet, un LLM "executeur" execute chaque etape (parfois moins puissant donc moins cher).
Astuce production : demander a l'agent d'ecrire son plan dans un fichier ou un message visible avant d'agir reduit drastiquement les comportements incoherents. Cela permet aussi de mettre un humain dans la boucle pour valider.
Limites
- Plans longs = qualite qui chute : au-dela de 7 a 10 etapes, les LLM enchainent les erreurs. Necessite de decomposer (HTN).
- Cout : la planification consomme des tokens (raisonnement) en plus des tokens d'execution.
- Pas de notion de qualite : l'agent atteint le but, mais pas necessairement de la meilleure facon. Pour cela, voir agent base sur l'utilite.
- Echec en environnement dynamique : si le monde change pendant l'execution, l'agent doit replanifier en permanence — couteux et instable.
Pour aller plus loin : l'agent base sur l'utilite qui ne se contente pas d'atteindre le but mais cherche la meilleure facon de l'atteindre ; et l'agent hierarchique qui decompose les plans complexes.
Questions frequentes
En quoi un agent base sur des objectifs depasse-t-il un agent base sur un modele ?
L'agent base sur un modele reagit a son etat courant ; l'agent base sur des objectifs projete plusieurs etapes a l'avance pour atteindre un but explicite. Il introduit la notion de planification : explorer mentalement des sequences d'actions et choisir celle qui mene au but.
Les LLM peuvent-ils planifier ?
Oui, mais avec des limites. Un LLM seul fait mal les planifications complexes (au-dela de 7-10 etapes). On l'aide en lui donnant un format de plan structure, en decomposant via chain-of-thought, ou en l'integrant a un planificateur symbolique (PDDL, recherche A*). Les agents Claude et OpenAI o3 ont integre nativement une etape de planification.
Faut-il toujours un objectif explicite ?
Pas dans tous les agents, mais des qu'il y a une notion de "but a atteindre" (livrer un colis, repondre a une question complexe, generer un rapport), une representation explicite des objectifs ameliore drastiquement le comportement.