Les évaluations personnalisées aident à tester votre IA par rapport à des critères spécifiques tels que la précision, le ton et la voix de la marque. En utilisant un LLM-as-judge, vous pouvez automatiquement calculer le score et examiner les sorties pour vous assurer que les réponses de vos agents répondent de façon cohérente à vos objectifs spécifiques et à vos normes de qualité.
Éditions requises
Cet article s'applique :
Nouveau centre de test dans Agentforce Builder (bêta)
Cet article ne s'applique pas :
Centre de test Agentforce hérité dans Configuration
Chaque agent a un but ou un objectif. Par conséquent, l'évaluation des performances d'un agent nécessite d'identifier des métriques adaptées à cet objectif. Outre les évaluations par défaut, les évaluations personnalisées permettent de définir des critères spécifiques pour évaluer l'efficacité de votre agent au-delà des simples contrôles de réussite ou d'échec. Avec des évaluations personnalisées, vous pouvez vérifier que vos agents IA reflètent de façon cohérente la voix de votre marque, répondent aux attentes de qualité et renvoient le sentiment voulu.
Pour créer une évaluation personnalisée, cliquez sur Ajouter personnalisé, puis sélectionnez Juge LLM.
Qu’est-ce qu’un juge LLM ?
Un LLM judge (ou LLM-as-judge) est quand un grand modèle de langage (LLM) évalue les sorties d'un autre. Un juge LLM reçoit une invite qui définit la tâche et décrit les critères d'évaluation tels que l'exactitude factuelle, la pertinence, la cohérence et la fidélité à la source. Avec ces ressources et lignes directrices, le juge du grand livre détermine la réponse attendue et la compare à la réponse de l'agent. Sur la base de cette comparaison, le juge génère des scores, des classements ou des commentaires écrits. Le modèle LLM en tant que juge sert d'outil d'évaluation évolutif, automatisé et objectif pour des tâches telles que les résumés de score ou le classement des réponses. Nous avons soigneusement conçu nos invites LLM-as-judge pour vous donner les résultats de test les plus précis et les plus utiles.
Lorsque vous créez une invite pour une évaluation personnalisée, vous pouvez adapter plusieurs éléments clés.
Déterminer quel modèle IA sert de juge
Ajouter des ressources Salesforce
Enregistrer plusieurs versions de modèle
Définir le score de seuil pour vos critères de réussite
Enregistrez votre évaluation.
Après avoir enregistré votre évaluation personnalisée, elle est automatiquement sélectionnée pour vos évaluations de suite de tests. Lorsque le statut est Prêt à exécuter, cliquez sur Exécuter les tests pour exécuter les tests.
Cet article a-t-il résolu votre problème ?
Dites-nous ce que nous pouvons améliorer !
Chargement
Salesforce Help | Article
Cookie Consent Manager
General Information
Required Cookies
Functional Cookies
Advertising Cookies
General Information
We use three kinds of cookies on our websites: required, functional, and advertising. You can choose whether functional and advertising cookies apply. Click on the different cookie categories to find out more about each category and to change the default settings.
Privacy Statement
Required Cookies
Always Active
Required cookies are necessary for basic website functionality. Some examples include: session cookies needed to transmit the website, authentication cookies, and security cookies.
Functional Cookies
Functional cookies enhance functions, performance, and services on the website. Some examples include: cookies used to analyze site traffic, cookies used for market research, and cookies used to display advertising that is not directed to a particular individual.
Advertising Cookies
Advertising cookies track activity across websites in order to understand a viewer’s interests, and direct them specific marketing. Some examples include: cookies used for remarketing, or interest-based advertising.