使用测试结果

测试完成后，您将看到测试套件的整体度量，以及每个测试的评估分数。使用这些结果来识别失败或得分低的话语，然后在 Agentforce Builder 中手动重新测试它们。细化子客服人员和操作中的说明，并迭代，直到您对回复满意。请密切关注重复性故障，因为这些结果有助于发现根本问题，例如指导不明确、缺少 Knowledge 或配置问题。要解释您的结果，请查看每个评估如何帮助衡量客服人员的绩效。

要解释您的结果，请查看每个评估如何帮助衡量客服人员的绩效。

默认评估的分数为 1，及格或 0，失败。

评估	测试意义	推荐
回复评估	得分 3 到 5 表示客服人员通常成功实现了目标。5 分反映了准确、完整和品牌一致的回答，没有无关的内容。得分 3 到 4 显示清晰度和完整性级别下降。在核心意图仍然得到处理时,可能会有一些小的疏漏或部分理解,从而产生一些模糊性。 1 到 2 的分数表明客服人员难以实现目标。响应可能不清楚，缺少关键元素，或者包含不相关的信息。它还可能要求用户提供本应从 CRM 检索的信息。 0 分表示完全无法解析用户的查询。响应是通用的，不解决用户的意图。	检查客服人员配置，了解与子客服人员选择、说明或操作相关的问题。请考虑是否存在 Knowledge 差距，例如过时的文章，或其他阻止客服人员做出适当响应的问题。
子客服人员声明	分数为 1 表示客服人员正确识别了适当的子客服人员来处理话语。分数为 0 表示客服人员选择了意外的子客服人员来处理话语。	在 Agentforce Builder 中手动重新测试任何失败的话语，并在计划画布中查看客服人员的推理。完善预期操作和子代理本身的说明，以明确指导客服人员做出正确选择，并限制使用错误操作。
操作声明	分数为 1 表示客服人员正确识别了子客服人员中处理话语的所有适当操作。分数为 0 表示客服人员选择错误操作，或未在子客服人员中选择所有必需操作以解决话语。	在 Agentforce Builder 中手动重新测试任何失败的话语，并在计划画布中查看客服人员的推理。完善预期操作和子代理本身的说明，以明确指导客服人员做出正确选择，并限制使用错误操作。

评估

测试意义

推荐

回复评估

得分 3 到 5 表示客服人员通常成功实现了目标。5 分反映了准确、完整和品牌一致的回答，没有无关的内容。

得分 3 到 4 显示清晰度和完整性级别下降。在核心意图仍然得到处理时,可能会有一些小的疏漏或部分理解,从而产生一些模糊性。

1 到 2 的分数表明客服人员难以实现目标。响应可能不清楚，缺少关键元素，或者包含不相关的信息。它还可能要求用户提供本应从 CRM 检索的信息。

0 分表示完全无法解析用户的查询。响应是通用的，不解决用户的意图。

检查客服人员配置，了解与子客服人员选择、说明或操作相关的问题。请考虑是否存在 Knowledge 差距，例如过时的文章，或其他阻止客服人员做出适当响应的问题。

子客服人员声明

分数为 1 表示客服人员正确识别了适当的子客服人员来处理话语。

分数为 0 表示客服人员选择了意外的子客服人员来处理话语。

在 Agentforce Builder 中手动重新测试任何失败的话语，并在计划画布中查看客服人员的推理。完善预期操作和子代理本身的说明，以明确指导客服人员做出正确选择，并限制使用错误操作。

操作声明

分数为 1 表示客服人员正确识别了子客服人员中处理话语的所有适当操作。

分数为 0 表示客服人员选择错误操作，或未在子客服人员中选择所有必需操作以解决话语。

回复质量评估主要在 0 和 5 之间评分，3 或更高表示及格；但是，指令遵守度的唯一评分是高、低或不确定。每个分数的推理由 LLM 裁判通过信息气泡提供。

什么是 LLM 作为法官？

LLM 作为判断者是指当一个大型语言模型 (LLM) 评估另一个 LLM 的输出时，它充当一个可扩展的、自动化的和客观的评估工具，用于对汇总进行评分或对响应进行排名等任务。“法官”LLM 会收到提示，其中包含任务和评估标准，例如事实准确性、相关性、一致性和对来源的忠诚度。通过这些资源和准则，LLM 法官确定预期的响应，并将其与客服人员的响应进行比较，然后生成分数、排名或文本反馈。我们精心设计了 LLM 作为判断提示，为您提供最准确和有用的测试结果。

评估	测试意义
完整性	5 分表示回答完全完整和准确，没有重要遗漏。得分 4 和 3 表明完整性水平下降，略有差距或中度差距，可能会稍微影响理解。分数为 1 或 2 表示生成的答案严重不完整，缺少几条或最重要的信息，这会造成混乱或导致部分误导结果。 0 分表示评估完全失败，表示答案错过了所有重要信息，因此非常混乱或误导。
一致性	得分从 3 到 5 表示客服人员可以通过适当的句子和语法结构将基础信息正确转换为会话语言，确保对话流畅且易于用户理解。从 0 到 2 的分数表示信息已从 Salesforce 对象中提取并作为原始数据（例如 JSON 结构或直接字段内容）传递。
简洁性	得分从 3 到 5 表示客服人员的响应简短但准确，成功捕获所需内容的实质。得分从 0 到 2 表示生成的答案缺乏简洁性，这可能是因为回答冗长、重复、包含不重要的分数或包含不相关内容。
延迟	测试话语中的高延迟或异常延迟表明话语本身或一些底层基础设施存在问题。如果客服人员调整未解决问题，请联系 Salesforce 支持，检查基础设施问题。
指令遵守	高：客服人员解释并完全遵循子客服人员指令，解决关键点并提供任何必需的信息。低：客服人员无法准确解释或遵循子客服人员的说明。它无法遵循至少一个指令，导致不正确的响应。这标志着需要改进说明并设置更明确的约束。不确定：由于不明确的响应或操作、不完整的响应或子客服人员指令的解释冲突，无法最终确定指令遵守情况。

默认评估通过比较预期结果和实际结果进行评分，而质量评估由 judge-LLM 基于固定标准进行评估。如果回复得分较低，请仔细查看，以查看它是否真正不符合您的预期。例如，juller-LLM 可能会分配较低的简洁度分数，但您可能觉得额外的上下文会更好地服务于客户，或者与您的品牌声音保持一致。否则，您可以添加额外的说明或防护栏，以更好地根据您的目标定制客服人员。在解释分数时，请始终考虑您的具体目标和用例。质量评估提供指导，但它们不是客服人员成功或失败的绝对评测。

另请参阅：

本文章是否解决您的问题？

请与我们共享您的想法，以便我们进行改进！

此文本已使用 Salesforce 机器翻译系统进行翻译。如需了解更多详情，请点击此处。

使用测试结果

另请参阅：

General Information

Required Cookies

Functional Cookies

Advertising Cookies

General Information

Required Cookies

Functional Cookies

Advertising Cookies

Cookie List

此文本已使用 Salesforce 机器翻译系统进行翻译。如需了解更多详情，请点击此处。切换为英语而非现在

产品区域

功能影响

版本

体验

使用测试结果

另请参阅：

此文本已使用 Salesforce 机器翻译系统进行翻译。如需了解更多详情，请点击此处。