Mon Agent IA

L'agent base sur l'utilite : optimiser, pas seulement atteindre

Quatrieme niveau de la classification, l'agent base sur l'utilite va plus loin que l'agent a objectifs : il choisit la sequence d'actions qui maximise une mesure de qualite (utilite).

Definition

Un agent base sur l'utilite (en anglais utility-based agent) ne se contente pas d'atteindre un but : il choisit, parmi les sequences d'actions possibles, celle qui maximise une fonction d'utilite U(etat) qui mesure la "qualite" d'un etat.

Formellement : action = argmax_a U(transition(etat, a)). En presence d'incertitude, on optimise l'utilite esperee : argmax_a E[U(transition(etat, a))]. C'est le coeur de la theorie de la decision.

Objectif vs utilite : la difference

Un agent a objectifs repond a une question binaire : "le but est-il atteint ?". Un agent a utilite repond a une question continue : "a quel point la situation est-elle bonne ?".

Exemple : un agent qui repond au support client. Objectif simple : "envoyer une reponse au client". Utilite : pondere vitesse (rapide = mieux), justesse (correct = mieux), satisfaction client (mesuree apres coup), cout (moins de tokens = mieux). Le meme but peut etre atteint avec une utilite tres differente.

Exemples reels

Domaines historiques

  • Tarification dynamique (Uber, Booking, compagnies aeriennes) : utilite = revenu attendu compte tenu de la demande et de la concurrence.
  • Trading algorithmique : utilite = profit espere ponderee par le risque.
  • Recommandation produit (Amazon, Netflix) : utilite combinant probabilite de clic, panier moyen, retention.
  • Robotique de prehension : utilite = probabilite de succes de la prise, stabilite, securite.

Agents IA et LLM

  • Assistant commercial : utilite combinant probabilite de closing, taille potentielle du deal et investissement temps requis.
  • Agent de routage de tickets : utilite = probabilite que le bon expert resolve le ticket en moins de N heures.
  • Agent multi-modeles : choisir entre Claude Haiku (cher mais excellent) et un modele moins cher selon la complexite estimee de la requete. Utilite = qualite attendue divisee par le cout.
  • Generation de contenu : produire N variantes, scorer chacune par un LLM juge, publier la meilleure.

Construire une fonction d'utilite

Concretement, voici comment on definit une fonction d'utilite operationnelle :

  1. Identifier les criteres de succes qui comptent reellement (avec le metier).
  2. Les rendre mesurables : temps de resolution en minutes, score de satisfaction sur 5, cout en euros.
  3. Normaliser chaque critere sur une echelle comparable (0 a 1).
  4. Ponderer selon l'importance metier.
  5. Tester sur des scenarios reels, ajuster les poids, recommencer.

Exemple de fonction d'utilite simple pour un agent de support client :

U = 0.40 × satisfaction_client
  + 0.25 × (1 / temps_resolution)
  + 0.20 × resolution_complete
  - 0.15 × cout_token

Cette formule, anodine en apparence, change profondement le comportement de l'agent. Definir les poids est un acte de direction.

Utilite et LLM

Trois patterns d'integration en 2026 :

  • LLM-as-a-judge : un LLM evalue les options selon les criteres et donne un score. Tres flexible, mais peut etre biaise — d'ou les benchmarks Arena.
  • Reward model : un petit modele dedie est entraine a estimer l'utilite. Plus rapide, mais demande des donnees annotees.
  • RLHF / DPO : l'utilite est incorporee au LLM par fine-tuning sur des preferences humaines. C'est ainsi qu'on aligne les modeles flagship.

Astuce : pour les agents critiques (sante, finance, juridique), expliciter les criteres d'utilite dans le system prompt — meme sans formaliser une formule — ameliore significativement la qualite des decisions.

Limites et risques

  • Difficulte a tout quantifier : certains criteres (creativite, ethique, coherence avec la marque) resistent a la mesure.
  • Sur-optimisation locale : l'agent peut maximiser l'utilite a court terme en degradant des metriques non incluses (effet Goodhart).
  • Specification gaming : si la fonction est mal definie, l'agent trouvera une faille pour la maximiser de facon absurde.
  • Cout computationnel : evaluer plusieurs options multiplie les appels LLM ou les inferences.

Pour aller plus loin : l'agent d'apprentissage qui ajuste sa fonction d'utilite par retour d'experience ; et le RLHF qui inscrit l'utilite directement dans le modele.

Questions frequentes

Pourquoi ne pas se contenter d'un objectif binaire (atteint / pas atteint) ?

Parce qu'il existe souvent plusieurs facons d'atteindre un but, et elles ne se valent pas. Aller de A a B en 30 minutes vaut mieux qu'en 2 heures. Resoudre un ticket sans escalade vaut mieux qu'avec. La fonction d'utilite encode cette preference fine entre solutions possibles.

Comment definit-on la fonction d'utilite ?

Par analyse metier : on liste les criteres qui comptent (temps, cout, satisfaction client, risque), on les pondere. C'est souvent l'etape la plus politique d'un projet IA : le poids relatif des criteres reflete une strategie d'entreprise. La fonction peut etre apprise (RLHF) ou ecrite a la main.

Quelle place pour les LLM ?

Un LLM peut jouer le role de juge : "evaluer chaque option proposee selon ces criteres et donner une note". Pattern frequent dans les agents 2026 (LLM-as-a-judge). On peut aussi calibrer un agent par RLHF, ou par DPO (Direct Preference Optimization), qui inscrivent l'utilite dans le modele lui-meme.