您位於此處:
安全和安全 - 毒性偵測
自動掃描 AI 提示和產生的回應,以識別、標記和評分多個種類 (例如仇恨言語、暴力、粗話) 的有害語言。
控制名稱
Einstein Trust 圖層 - 提示和回應中的毒性偵測
控制概觀
自動掃描 AI 提示和產生的回應,以識別、標記和評分多個種類 (例如仇恨言語、暴力、粗話) 的有害語言。
描述
使用規則和機器學習的混合系統,將毒性信賴分數 (0–1) 指派給內容。高分數表示有毒內容的可能性很高,允許自動封鎖或標記。
建議組態
在 Einstein 設定中啟用「毒性偵測」。請確保已設定 Models API 傳遞毒性標記,並透過 Data Cloud 中的 Einstein 稽核追蹤主動監視分數。
安全性影響
確保 AI 不會產生有偏見、不當或違反法律的資料。
業務影響
透過防止 AI 與客戶或員工互動不當,同時提供人力資源與法律合規性的可防護稽核追蹤,來保護品牌聲譽。
未設定安全性風險
若未啟用偵測,LLM 可能會產生有毒幻覺,或使用可解譯為公司正式立場的有害內容回應惡意提示。
威脅情況
提示注射:使用者會誘騙 AI 產生不當的回應。毒性輸出:LLM 會根據複雜的使用者要求不小心產生有偏見或暴力的指示。
估計 CVSS 分數範圍
嚴重 (9.0–10.0)。
風險影響考量事項
客戶面向 AI 的風險較高,其中未經驗證的毒性回應可立即公開顯示。
風險愈高時機
系統會略過毒性偵測,因為延遲較低,或當系統用於偵測準確度明顯較低的不支援語言時。
低度風險時機
毒性偵測已啟用,管理員會定期檢閱「稽核追蹤」是否有毒模式,並主動封鎖回應。
業務與整合考量事項
毒性偵測會將少量延遲新增至「回應旅程」。管理員應針對觸發自動封鎖與簡易警告的分數 (例如 >0.7) 設定明確邊界。
安全性健康檢閱指南
「安全性健康審查」會掃描「Einstein Trust 圖層設定」以確認已啟用毒性偵測。
受影響的人員
規範專員、HR、法律小組,以及與生成式 AI 功能互動的一般使用者。

