Loading
设置和维护 Salesforce 组织
目录
选择筛选器

          没有结果
          没有结果
          以下是一些搜索提示

          检查关键字的拼写。
          使用更普遍的搜索词。
          选择更少的筛选器,并扩大搜索范围。

          搜索所有 Salesforce 帮助
          安全和安保 - 毒性检测

          安全和安保 - 毒性检测

          自动扫描 AI 提示和生成的响应,以识别、标记和评分跨多个类别的有害语言(例如,仇恨言论、暴力、亵渎)。

          控件名称

          Einstein Trust 层 - 提示和响应中的毒性检测

          控制概览

          自动扫描 AI 提示和生成的响应,以识别、标记和评分跨多个类别的有害语言(例如,仇恨言论、暴力、亵渎)。

          描述

          使用规则和机器学习的混合系统将毒性置信度分数 (0–1) 分配到内容。高分表示毒性含量的可能性很高,允许自动阻止或标记。

          推荐配置

          在 Einstein 设置中启用“毒性检测”。请确保将模型 API 配置为传递毒性标志,并通过 Data Cloud 中的 Einstein 审计跟踪主动监控分数。

          安全影响

          确保 AI 不会生成有偏见、冒犯性或法律损害的材料。

          业务影响

          通过防止 AI 与客户或员工不当互动,保护品牌声誉,同时为人力资源和法律合规提供可辩护的审计跟踪。

          安全风险(如果未配置)

          在没有主动检测的情况下,LLM 可能会产生有毒幻觉,或者对恶意提示做出响应,这些恶意提示含有有害内容,可能会被解释为公司的官方立场。

          威胁场景

          提示注入:用户欺骗 AI 生成亵渎的回应。有毒输出:LLM 会根据复杂的用户请求无意中生成有偏见或暴力的指令。

          估计的 CVSS 得分范围

          关键 (9.0–10.0)。

          风险影响注意事项

          面向客户的 AI 的风险更高,因为未经审查的毒性反应会立即引起公众的注意。

          高风险

          绕过毒性检测,以利于降低延迟,或者当系统用于不受支持的语言时,检测准确性明显降低。

          低风险

          毒性检测处于活动状态,管理员定期审查审计跟踪以了解毒性模式,并主动阻止响应。

          业务和集成注意事项

          毒性检测给“响应旅程”增加了一点延迟。管理员应该为触发自动阻止与简单警告的分数(例如 >0.7)设置明确的阈值。

          安全健康审查指导

          安全健康审查扫描 Einstein Trust 层设置,以确认已启用毒性检测。

          谁受到影响

          合规管理人员、人力资源、法律团队以及与生成式 AI 功能交互的任何最终用户。

           
          正在加载
          Salesforce Help | Article