Les pattern LLM-as-a-judge consiste à évaluer la qualité de la réponse d'un LLM, via un autre LLM. Car seules les IA génératives peuvent traiter du texte et donc analyser les réponses d'autres IA génératives !
Un LLM peut produire du texte mais aussi des décisions, via les sorties structurées. On parle de “juge” car dans ce cas le LLM va produire une réponse booléenne oui/non pour confirmer si un prompt ne contient pas de contenu problématique, idem pour la sortie du LLM. On peut aussi demande au juge LLM de produire une classification plus précise, par exemple un niveau de risque.
Pour les statisticiens, attention cependant à la calibration : les modèles LLM peuvent produire des scores de 0 à 1, mais ils ne sont pas calibrés, c’est-à-dire qu’ils ne correspondent pas à une probabilité dans le monde réel (par exemple, la probabilité que le prompt soit vraiment une tentative de piratage).
Les data scientists doivent donc valider le bon fonctionnement du juge, avant que le juge puisse évaluer le bon fonctionnement d’un système agentique ! Les plateformes de monitoring telles que LangSmith et Langfuse aident gérer ces problématiques.



