L'agent d'apprentissage : s'ameliorer en boucle a partir de son experience
Cinquieme niveau de la classification, l'agent d'apprentissage ajuste son comportement au fil du temps. C'est le coeur du machine learning et la cle des agents qui s'adaptent vraiment a leur utilisateur.
Definition
Un agent d'apprentissage (en anglais learning agent) modifie son propre comportement au fil de l'experience. Au-dela de son etat interne, il ajuste ses regles de decision, sa fonction d'utilite ou son modele du monde a partir des retours qu'il recoit.
C'est le seul type d'agent capable de s'ameliorer sans intervention humaine reguliere. En contrepartie, il est aussi le plus complexe a deployer et a maintenir.
Les 4 composants d'apprentissage
La classification de Russell & Norvig identifie 4 sous-systemes :
- Element de performance : la partie qui agit (votre agent a utilite classique).
- Critique : evalue la qualite des actions par rapport a un standard externe (recompense, supervision humaine, metrique).
- Element d'apprentissage : modifie les regles de l'element de performance a partir des retours du critique.
- Generateur de problemes : suggere des actions exploratoires pour decouvrir de meilleurs comportements (exploration vs exploitation).
Exemple : un agent de recommandation Netflix. Element de performance = le classement actuel. Critique = "l'utilisateur a-t-il clique, regarde, abandonne ?". Element d'apprentissage = met a jour les poids du modele. Generateur de problemes = insere parfois des films inhabituels pour decouvrir de nouvelles preferences.
Techniques d'apprentissage
- Apprentissage supervise : exemples (input, output) annotes. Le plus courant en industrie.
- Apprentissage non supervise : decouvrir des structures dans les donnees (clustering, embeddings).
- Reinforcement learning (RL) : apprendre par essai/erreur en maximisant une recompense. Cle pour les agents autonomes.
- RLHF (Reinforcement Learning from Human Feedback) : RL ou la recompense vient de preferences humaines. A produit ChatGPT, Claude.
- DPO (Direct Preference Optimization) : variante simplifiee du RLHF, plus stable et moins couteuse. Tres utilisee depuis 2024.
- Online learning : apprentissage en continu sur le flux de donnees, sans relancer l'entrainement.
Exemples reels
Classiques du machine learning
- Moteurs de recommandation (Netflix, Spotify, TikTok) : ajustent les scores selon l'engagement utilisateur.
- Detection de fraude : modeles reentraines quotidiennement avec les nouvelles fraudes detectees.
- Filtres anti-spam adaptatifs : Gmail apprend de chaque clic "marquer comme spam".
- AlphaGo, AlphaZero : entraines par RL pur, ont depasse l'humain.
Agents LLM 2026
- Chatbot adaptatif : ajuste son ton, son style, ses raccourcis a partir des feedbacks utilisateurs.
- Copilote de code qui apprend les conventions de l'equipe via fine-tuning sur le repo.
- Agent commercial qui apprend quels arguments closent le mieux sur quel type de prospect.
- Agent de moderation qui s'adapte a l'evolution du langage et des techniques de contournement.
Apprentissage et LLM
Trois niveaux d'apprentissage pour un agent base sur un LLM :
- Pas d'apprentissage : le LLM est utilise tel quel, on optimise le prompt. Le plus courant — et souvent suffisant.
- Apprentissage en contexte (in-context learning) : on injecte des exemples ou un profil dans le prompt. Le "modele" est mis a jour, mais seulement pour la session.
- Fine-tuning / LoRA : on modifie reellement les poids. Necessite des donnees annotees, un budget GPU. Reserve aux usages a fort volume.
- RLHF / DPO en production : tres rare hors laboratoires — couteux, complexe. Les editeurs (Anthropic, OpenAI) le font pour vous.
Pattern emergent (2026) : les "memoires actives" — l'agent ecrit ses apprentissages dans une base, qu'il relit pour les prochaines requetes. C'est une forme d'apprentissage sans toucher aux poids du LLM, beaucoup plus operationnelle.
Pieges et bonnes pratiques
- Catastrophic forgetting : ajuster sur de nouvelles donnees degrade les performances anciennes. Mitigation : melanger avec un echantillon historique.
- Drift du distribution : si le monde change vite, le modele se peremer avant d'avoir absorbe les nouveautes.
- Biais d'engagement (cas TikTok, YouTube) : optimiser un proxy (clic, temps passe) au lieu du vrai objectif (satisfaction profonde).
- Boucles de feedback : un agent qui apprend de ses propres sorties degenere. Toujours mixer avec une source externe (humain, base de verite).
- Reproductibilite : un agent qui change tous les jours est dur a auditer. Versionner les modeles et les regles est indispensable.
Pour aller plus loin : l'agent hierarchique qui combine apprentissage et orchestration, et le RLHF ou le fine-tuning pour les techniques.
Questions frequentes
Tout agent LLM est-il un agent d'apprentissage ?
Non. Un LLM est entraine une fois, puis il infere — il n'apprend plus pendant son fonctionnement courant. Un agent d'apprentissage continue de modifier ses parametres ou ses regles a partir des retours d'experience. Cela suppose une boucle : action → observation → mise a jour du modele.
Quelle difference entre fine-tuning et RLHF ?
Le fine-tuning supervise apprend a imiter des reponses cibles. Le RLHF apprend a partir de preferences (cette reponse est meilleure que celle-la). RLHF est plus puissant pour aligner un modele sur des comportements complexes que des exemples ne suffisent pas a capturer.
Faut-il un agent d'apprentissage ou un agent stateless suffit-il ?
Pour 80 % des cas en entreprise : un agent stateless avec un bon prompt suffit. L'apprentissage continu introduit de la complexite (donnees, drift, regression). Reserver aux cas ou l'environnement change (catalogue qui evolue, preferences clients) ou ou le volume justifie un entrainement specialise.