L'agent base sur l'utilite : optimiser, pas seulement atteindre
Quatrieme niveau de la classification, l'agent base sur l'utilite va plus loin que l'agent a objectifs : il choisit la sequence d'actions qui maximise une mesure de qualite (utilite).
Definition
Un agent base sur l'utilite (en anglais utility-based agent) ne se
contente pas d'atteindre un but : il choisit, parmi les sequences d'actions possibles,
celle qui maximise une fonction d'utilite U(etat) qui mesure
la "qualite" d'un etat.
Formellement : action = argmax_a U(transition(etat, a)). En presence
d'incertitude, on optimise l'utilite esperee :
argmax_a E[U(transition(etat, a))]. C'est le coeur de la theorie de la decision.
Objectif vs utilite : la difference
Un agent a objectifs repond a une question binaire : "le but est-il atteint ?". Un agent a utilite repond a une question continue : "a quel point la situation est-elle bonne ?".
Exemple : un agent qui repond au support client. Objectif simple : "envoyer une reponse au client". Utilite : pondere vitesse (rapide = mieux), justesse (correct = mieux), satisfaction client (mesuree apres coup), cout (moins de tokens = mieux). Le meme but peut etre atteint avec une utilite tres differente.
Exemples reels
Domaines historiques
- Tarification dynamique (Uber, Booking, compagnies aeriennes) : utilite = revenu attendu compte tenu de la demande et de la concurrence.
- Trading algorithmique : utilite = profit espere ponderee par le risque.
- Recommandation produit (Amazon, Netflix) : utilite combinant probabilite de clic, panier moyen, retention.
- Robotique de prehension : utilite = probabilite de succes de la prise, stabilite, securite.
Agents IA et LLM
- Assistant commercial : utilite combinant probabilite de closing, taille potentielle du deal et investissement temps requis.
- Agent de routage de tickets : utilite = probabilite que le bon expert resolve le ticket en moins de N heures.
- Agent multi-modeles : choisir entre Claude Haiku (cher mais excellent) et un modele moins cher selon la complexite estimee de la requete. Utilite = qualite attendue divisee par le cout.
- Generation de contenu : produire N variantes, scorer chacune par un LLM juge, publier la meilleure.
Construire une fonction d'utilite
Concretement, voici comment on definit une fonction d'utilite operationnelle :
- Identifier les criteres de succes qui comptent reellement (avec le metier).
- Les rendre mesurables : temps de resolution en minutes, score de satisfaction sur 5, cout en euros.
- Normaliser chaque critere sur une echelle comparable (0 a 1).
- Ponderer selon l'importance metier.
- Tester sur des scenarios reels, ajuster les poids, recommencer.
Exemple de fonction d'utilite simple pour un agent de support client :
U = 0.40 × satisfaction_client
+ 0.25 × (1 / temps_resolution)
+ 0.20 × resolution_complete
- 0.15 × cout_token Cette formule, anodine en apparence, change profondement le comportement de l'agent. Definir les poids est un acte de direction.
Utilite et LLM
Trois patterns d'integration en 2026 :
- LLM-as-a-judge : un LLM evalue les options selon les criteres et donne un score. Tres flexible, mais peut etre biaise — d'ou les benchmarks Arena.
- Reward model : un petit modele dedie est entraine a estimer l'utilite. Plus rapide, mais demande des donnees annotees.
- RLHF / DPO : l'utilite est incorporee au LLM par fine-tuning sur des preferences humaines. C'est ainsi qu'on aligne les modeles flagship.
Astuce : pour les agents critiques (sante, finance, juridique), expliciter les criteres d'utilite dans le system prompt — meme sans formaliser une formule — ameliore significativement la qualite des decisions.
Limites et risques
- Difficulte a tout quantifier : certains criteres (creativite, ethique, coherence avec la marque) resistent a la mesure.
- Sur-optimisation locale : l'agent peut maximiser l'utilite a court terme en degradant des metriques non incluses (effet Goodhart).
- Specification gaming : si la fonction est mal definie, l'agent trouvera une faille pour la maximiser de facon absurde.
- Cout computationnel : evaluer plusieurs options multiplie les appels LLM ou les inferences.
Pour aller plus loin : l'agent d'apprentissage qui ajuste sa fonction d'utilite par retour d'experience ; et le RLHF qui inscrit l'utilite directement dans le modele.
Questions frequentes
Pourquoi ne pas se contenter d'un objectif binaire (atteint / pas atteint) ?
Parce qu'il existe souvent plusieurs facons d'atteindre un but, et elles ne se valent pas. Aller de A a B en 30 minutes vaut mieux qu'en 2 heures. Resoudre un ticket sans escalade vaut mieux qu'avec. La fonction d'utilite encode cette preference fine entre solutions possibles.
Comment definit-on la fonction d'utilite ?
Par analyse metier : on liste les criteres qui comptent (temps, cout, satisfaction client, risque), on les pondere. C'est souvent l'etape la plus politique d'un projet IA : le poids relatif des criteres reflete une strategie d'entreprise. La fonction peut etre apprise (RLHF) ou ecrite a la main.
Quelle place pour les LLM ?
Un LLM peut jouer le role de juge : "evaluer chaque option proposee selon ces criteres et donner une note". Pattern frequent dans les agents 2026 (LLM-as-a-judge). On peut aussi calibrer un agent par RLHF, ou par DPO (Direct Preference Optimization), qui inscrivent l'utilite dans le modele lui-meme.