Agent IA en production : pourquoi le jour 91 est plus dangereux que le jour 1

Un agent IA en production, ça ne plante pas le jour 1. Le jour 1, on l'a testé, on l'a montré à l'équipe, il répond bien, tout le monde est content. Le jour qui pose problème, c'est le jour 91.

C'est le jour où l'agent commence à dériver. Il se met à valider des demandes qu'il aurait dû escalader. Il invente une référence produit qui n'existe plus. Il rassure un client sur un délai de livraison qu'il n'a pas vraiment vérifié. Personne ne le voit, parce que les volumes sont devenus tels que personne ne relit. Et un matin, on se rend compte que sur 200 conversations traitées dans la semaine, une petite dizaine est allée nulle part.

Cette semaine, n8n a publié son Production AI Playbook : Evaluation and Monitoring. Le sujet est exactement celui qu'on aborde tous les vendredis matin avec l'équipe — et qu'on n'a pas encore beaucoup entendu en Polynésie. On profite de la sortie du playbook pour partager la perspective terrain : ce qu'on a appris en construisant et en exploitant des agents IA en production sur les systèmes du groupe RLF, en particulier sur Fenua Growup.

01/cap — Pourquoi un agent IA finit par dériver

Un agent IA n'est pas un script. Un script qui marche le jour 1 marche encore le jour 91, sauf si l'environnement autour change. Un agent IA, lui, vit dans une zone grise : il interprète, il choisit, il formule. Il a des marges. Et ces marges bougent.

Trois mécanismes provoquent la dérive en silence :

L'environnement se déplace. Le catalogue produit s'étoffe, les SLA changent, l'équipe ajoute un nouveau fournisseur, le ton commercial évolue. L'agent, lui, a été calibré sur l'état du monde du jour 1.
Les utilisateurs apprennent à lui parler. Ils raccourcissent leurs questions, ils omettent du contexte, ils enchaînent sur des cas que l'agent n'a jamais vus. Le distribution de ce qu'il reçoit en entrée change, sans bruit.
Le modèle sous-jacent évolue. On passe d'une version à l'autre du modèle (claude-sonnet-4-5 à une version suivante), un fournisseur ajuste un paramètre interne, un fine-tuning local part en biais. L'agent ne répond plus tout à fait pareil.

Le résultat est toujours le même : un agent IA non monitoré devient une dette technique masquée. Il a l'air de tourner. Il génère du volume. Mais sa qualité s'érode, et personne ne s'en rend compte avant qu'un client ne se plaigne — ou pire, ne se plaigne pas et ne revienne plus.

Sur Fenua Growup, on a vu un agent dériver de plusieurs points en quelques semaines sans qu'on s'en aperçoive immédiatement. C'est ce constat qui a déclenché la mise en place du rituel d'évaluation continue. Aujourd'hui, c'est non négociable.

Le coût caché du non-monitoring n'est jamais sur la facture du mois. Il est sur le NPS qui glisse, sur le client qui répète sa demande à un humain parce que la réponse de l'agent était à côté, sur les heures que l'équipe finit par passer à corriger après coup ce que l'agent était censé faire.

02/wf — Ce que dit n8n dans son Production Playbook

Le Production AI Playbook de n8n formalise quelque chose que la plupart des équipes terrain découvrent au bout de quelques mois en production. On en retient quatre points structurants :

L'évaluation n'est pas un test, c'est un processus continu. On ne valide pas un agent IA avec un jeu de tests une fois pour toutes. On échantillonne en permanence ce qui se passe en prod, on note, on compare, on corrige.
Il faut des métriques au-dessus du modèle. La latence, le coût en tokens, le taux d'escalade vers un humain, le taux de hallucination détectée — ce sont les métriques système, pas les métriques du modèle lui-même.
Le monitoring est binaire : on regarde ou on regarde pas. Pas de demi-mesure. Soit on a un dashboard et un rituel de revue, soit on n'a rien. Le "on regardera quand on aura le temps" ne marche jamais.
L'évaluation doit pouvoir déclencher une action. Si la métrique sort des clous, il faut un kill switch, un fallback humain, un rollback de prompt. Sans action automatique ou semi-automatique, l'évaluation est cosmétique.

Le playbook est solide et on est aligné sur le fond. La nuance qu'on apporte est géographique et opérationnelle : tout ça est encore plus critique quand on opère depuis la Polynésie française, et qu'on a une équipe à taille humaine.

03/odoo — Comment on applique ça chez OpenUp en PF

Sur Fenua Growup (culture indoor, distribution d'équipements et conseil), notre agent IA Claude Sonnet 4.5 traite aujourd'hui 70 % du support client. Il est branché sur 21 modules Odoo custom qui décrivent finement le métier : boutures, EC, PPM, calendriers de récolte, références fournisseurs, statuts de commandes. Il ne répond pas à partir d'un FAQ générique. Il répond à partir des données vivantes de l'entreprise.

70 %, ce n'est pas un chiffre qu'on a atteint le jour 1. C'est le résultat d'une montée progressive, freinée volontairement à chaque fois qu'on perdait en qualité. Voici ce qu'on a mis en place pour piloter cette montée.

Le rituel du vendredi matin

Tous les vendredis, on bloque un créneau pour relire un échantillon des conversations de la semaine. Pas toutes. Un échantillon stratifié : on prend les conversations à fort enjeu (commandes, réclamations), les conversations où l'agent a hésité (faible confiance interne), et un échantillon aléatoire en bruit de fond.

Pour chaque conversation lue, on note trois choses :

Pertinence : est-ce que la réponse répond bien à la question posée ?
Exactitude : est-ce que les chiffres, références et délais cités sont vrais ?
Posture : est-ce que le ton est cohérent avec l'entreprise ?

Une réponse qui rate sur un seul des trois axes est une réponse à corriger. Le rituel prend une heure. C'est le meilleur investissement de la semaine.

Trois indicateurs qu'on regarde systématiquement

Au-dessus du rituel humain, trois indicateurs tournent en automatique :

Taux d'escalade vers un humain — si l'agent renvoie trop souvent vers un opérateur, c'est qu'on a un trou de couverture. S'il n'escalade jamais, c'est pire : il bluffe.
Cohérence interne — on rejoue régulièrement un set de questions de référence et on compare la réponse de l'agent à la réponse attendue. Si l'écart grandit, on alerte.
Latence et coût par conversation — pas glamour, mais c'est le canari dans la mine. Une latence qui grimpe ou un coût qui dérive révèle souvent un problème de prompt ou de contexte avant même que la qualité ne baisse.

Ces trois indicateurs sont pilotés sur un dashboard simple, pas sur une stack d'observabilité à 6 chiffres. Le but n'est pas d'avoir le plus beau dashboard. Le but est qu'il soit lu.

Ce qu'on a retenu du déploiement Growup

Ce que la mise en production sur Growup nous a vraiment appris, en condensé :

Ne pas mettre l'agent au-dessus de 30 % de couverture sans monitoring en place. Sinon on construit un mur d'incidents qui arrivera tous d'un coup au bout de 3 mois.
Toujours garder un fallback humain visible. Le client doit savoir qu'il peut basculer sur un humain en un clic, sans avoir à insister. Cette possibilité — même peu utilisée — change la confiance.
Documenter chaque correction de prompt comme on documente une migration de schéma. Un prompt n'est pas un fichier de config qu'on tweake en prod. C'est du code métier. On versionne, on commente, on revue.

04/res — Trois réflexes à imposer dans tout déploiement d'agent IA en PME

On ne pilote pas un agent IA en production comme on pilote une simple intégration. Voici les trois réflexes qu'on impose systématiquement avant qu'un agent passe en prod chez un client.

Échantillonner et noter

Pas de "on verra si ça marche". Avant le go-live, on définit l'échantillon hebdomadaire qu'un humain va relire, et la grille de notation. Cinq minutes par conversation, dix conversations par semaine, c'est un coût marginal. Sans ça, on pilote à l'aveugle.

Comparer aux humains

Pour les premiers mois, on garde des doublons humains sur une part du flux. Pas pour le contrôle hiérarchique — pour la calibration. Voir comment un opérateur expérimenté aurait répondu à la même question est la seule façon honnête de savoir si l'agent est utile, neutre, ou contre-productif.

Avoir un kill switch

Un bouton qui désactive l'agent en moins de 30 secondes, sans toucher au code. Ce bouton, idéalement, n'importe qui dans l'équipe peut l'actionner. Si l'agent commence à dérailler un samedi matin, personne n'a envie de réveiller un développeur. Le kill switch n'est pas un luxe — c'est une condition de mise en production.

05/pf — Pourquoi c'est encore plus critique en Polynésie

Trois contraintes propres à notre contexte rendent ces réflexes non négociables en PF :

Bande passante et latence. On opère sur des liaisons satellite ou sous-marines selon les sites. Une boucle d'évaluation qui demande 500 ms de plus à chaque appel n'est pas anodine. On dimensionne nos pipelines en partant du worst case réseau, pas du best case métropolitain.
Données sensibles et souveraineté. Les données clients, fournisseurs et fiscales (TVA, CPS, CFE) restent en zone choisie, sur instance dédiée. Pas de cloud tiers obligatoire. L'agent IA appelle un modèle externe, mais on contrôle exactement ce qui sort de l'instance — et on le journalise.
Pas de tier 1 support à 18h Tahiti. Quand l'agent dérape un mardi 18h, il n'y a pas un centre de service offshore qui prend le relais. C'est l'équipe locale, ou rien. Donc on ne tolère pas l'erreur silencieuse. Le monitoring doit pousser une alerte avant que le client n'écrive.

C'est exactement la position qu'on défend depuis le départ chez OpenUp : expert local, infrastructure digitale sous le même toit, données chez vous, code livré, prix fixe signé noir sur blanc. L'IA ne change pas l'équation. Elle la rend plus exigeante.

06/check — Ce qu'on conseille avant de lancer un agent IA en prod

Si vous êtes en PME polynésienne et que vous envisagez de déployer un agent IA en production dans les six prochains mois, voici la check-list courte qu'on vous proposerait avant le go-live :

[ ] Périmètre fermé. L'agent répond sur un domaine défini, pas sur "tout". 70 % de support n'est atteignable que si on a accepté que les 30 % restants partent à un humain.
[ ] Source de vérité branchée. L'agent ne devine pas un délai ou un stock. Il interroge sale.order, stock.quant, crm.lead en direct. S'il n'a pas la donnée, il escalade.
[ ] Grille d'évaluation écrite. Avant la première conversation en prod, vous savez ce que vous allez relire le vendredi suivant et selon quels critères.
[ ] Trois métriques système en place. Taux d'escalade, cohérence interne, latence/coût. Affichées, lues, discutées.
[ ] Kill switch testé. Pas seulement en place — testé en conditions réelles avant le go-live.
[ ] Fallback humain visible. Le client peut basculer sur un humain en un clic. Même si 95 % ne l'utilisent jamais.

Si une seule de ces six cases est vide, l'agent n'est pas prêt. Pas parce qu'il ne marche pas le jour 1 — mais parce que personne ne saura ce qu'il fait le jour 91.

Conclusion

Un agent IA en production sans monitoring, c'est une dette technique masquée. La méthode n8n est un bon repère, et on confirme depuis Tahiti, sur des modules Odoo réels et un agent qui traite 70 % du support d'une PME en activité, que ces réflexes ne sont pas optionnels. Ils sont la différence entre un agent qui crée de la valeur sur 12 mois et un agent qui crée des incidents au bout du quatrième.

Si vous avez un agent IA déjà en production, ou un projet qui s'apprête à passer en prod dans les prochaines semaines, on propose un audit gratuit de vos workflows IA : on regarde votre périmètre, vos métriques, votre process d'évaluation, et on vous renvoie un avis structuré sous 5 jours.

→ Audit gratuit de vos workflows IA · Voir le cas Fenua Growup · Nos services agents IA