詳細情報:
安全性とセキュリティ - 有害性検出
AI プロンプトと生成された応答を自動的にスキャンし、複数のカテゴリで有害な言語 (ヘイトスピーチ、暴力、冒涜など) を特定してフラグを設定し、スコアを付けます。
コントロール名
Einstein Trust Layer - プロンプトおよび応答での毒性検出
制御の概要
AI プロンプトと生成された応答を自動的にスキャンし、複数のカテゴリで有害な言語 (ヘイトスピーチ、暴力、冒涜など) を特定してフラグを設定し、スコアを付けます。
説明
ルールと機械学習のハイブリッドシステムを使用して、コンテンツに毒性信頼性スコア (0 ~ 1) を割り当てます。高スコアは、有毒なコンテンツが存在する可能性が高いことを示し、ブロックやフラグ設定を自動化できます。
推奨設定
Einstein の [設定] で [毒性検出] を有効にします。モデルAPIが有害性フラグを渡すように構成されており、スコアがData CloudのEinstein監査履歴でアクティブに監視されていることを確認します。
セキュリティへの影響
AI が偏った、攻撃的な、または法的な侵害となる素材を生成しないことを確認します。
ビジネスへの影響
AI が顧客や従業員と不適切にやりとりすることを防ぎ、HR および法令遵守のための防御可能な監査履歴を提供することで、ブランドの評判を保護します。
設定されていない場合のセキュリティリスク
能動的な検知を行わない場合、LLM は有害な幻覚を生じたり、会社の公式な立場と解釈される可能性のある有害なコンテンツを含む悪意のあるプロンプトに応答したりする可能性があります。
脅威のシナリオ
プロンプトインジェクション: ユーザーが AI をだまして俗的な応答を生成します。Toxic Output (有害な出力): LLM が複雑なユーザー要求に基づいて偏った指示や暴力的な指示を誤って生成します。
推定 CVSS スコア範囲
重大 (9.0 ~ 10.0)。
リスクの影響に関する考慮事項
未審査の有害反応がすぐに公開される顧客対応 AI のリスクが高くなります。
より高いリスク
毒性検出は、遅延を少なくするため、または検出精度が著しく低いサポート対象外の言語でシステムが使用されている場合、スキップされます。
低リスク
毒性検知が有効になっており、システム管理者は監査履歴で定期的に毒性パターンを確認し、積極的に応答をブロックします。
ビジネスと統合に関する考慮事項
毒性検出では、「対応ジャーニー」に若干の遅延が追加されます。システム管理者は、単純な警告ではなく、自動ブロックをトリガーするスコア (0.7 以上など) の明確なしきい値を設定する必要があります。
Security Health Review Guidance (セキュリティ状態レビューガイダンス)
Security Health Review は Einstein Trust Layer Setup をスキャンして、有害性検出がイネーブルになっていることを確認します。
影響を受けるユーザー
コンプライアンス責任者、HR、法務チーム、生成 AI 機能を操作するエンドユーザー。

