您在此处:
安全和安保 - 毒性检测
自动扫描 AI 提示和生成的响应,以识别、标记和评分跨多个类别的有害语言(例如,仇恨言论、暴力、亵渎)。
控件名称
Einstein Trust 层 - 提示和响应中的毒性检测
控制概览
自动扫描 AI 提示和生成的响应,以识别、标记和评分跨多个类别的有害语言(例如,仇恨言论、暴力、亵渎)。
描述
使用规则和机器学习的混合系统将毒性置信度分数 (0–1) 分配到内容。高分表示毒性含量的可能性很高,允许自动阻止或标记。
推荐配置
在 Einstein 设置中启用“毒性检测”。请确保将模型 API 配置为传递毒性标志,并通过 Data Cloud 中的 Einstein 审计跟踪主动监控分数。
安全影响
确保 AI 不会生成有偏见、冒犯性或法律损害的材料。
业务影响
通过防止 AI 与客户或员工不当互动,保护品牌声誉,同时为人力资源和法律合规提供可辩护的审计跟踪。
安全风险(如果未配置)
在没有主动检测的情况下,LLM 可能会产生有毒幻觉,或者对恶意提示做出响应,这些恶意提示含有有害内容,可能会被解释为公司的官方立场。
威胁场景
提示注入:用户欺骗 AI 生成亵渎的回应。有毒输出:LLM 会根据复杂的用户请求无意中生成有偏见或暴力的指令。
估计的 CVSS 得分范围
关键 (9.0–10.0)。
风险影响注意事项
面向客户的 AI 的风险更高,因为未经审查的毒性反应会立即引起公众的注意。
高风险
绕过毒性检测,以利于降低延迟,或者当系统用于不受支持的语言时,检测准确性明显降低。
低风险
毒性检测处于活动状态,管理员定期审查审计跟踪以了解毒性模式,并主动阻止响应。
业务和集成注意事项
毒性检测给“响应旅程”增加了一点延迟。管理员应该为触发自动阻止与简单警告的分数(例如 >0.7)设置明确的阈值。
安全健康审查指导
安全健康审查扫描 Einstein Trust 层设置,以确认已启用毒性检测。
谁受到影响
合规管理人员、人力资源、法律团队以及与生成式 AI 功能交互的任何最终用户。

