Vous êtes ici :
Sûreté et sécurité - Contrôle de la détection de la toxicité
Analyse automatiquement les invites IA et les réponses générées afin d'identifier, de marquer et d'évaluer les propos préjudiciables dans plusieurs catégories (par exemple, discours haineux, violence, blasphème).
Nom du contrôle
Einstein Trust Layer - Détection de la toxicité dans les invites et les réponses
Vue d'ensemble du contrôle
Analyse automatiquement les invites IA et les réponses générées afin d'identifier, de marquer et d'évaluer les propos préjudiciables dans plusieurs catégories (par exemple, discours haineux, violence, blasphème).
Description
Utilise un système hybride de règles et d'apprentissage machine pour attribuer un score de confiance en toxicité (0 à 1) au contenu. Les scores élevés indiquent une forte probabilité de contenu toxique, ce qui permet un blocage ou un marquage automatisé.
Configuration recommandée
Activez « Détection de la toxicité » dans la Configuration Einstein. Assurez-vous que l'API Models est configurée pour transmettre des indicateurs de toxicité et que les scores sont activement surveillés via le Journal d'audit Einstein dans Data Cloud.
Impact sur la sécurité
Garantit que l’IA ne génère pas de matériel biaisé, offensant ou compromettant sur le plan juridique.
Impact commercial
Protège la réputation de la marque en empêchant l’IA d’interagir de façon inappropriée avec des clients ou des employés, tout en fournissant une piste d’audit défendable pour la conformité RH et juridique.
Risque de sécurité s'il n'est pas configuré
Sans détection active, le LLM peut produire des hallucinations toxiques ou répondre à des invites malveillantes avec un contenu nocif qui pourrait être interprété comme la position officielle de l'entreprise.
Scénarios de menace
Injection d'invite : Un utilisateur trompe l'IA en générant une réponse profane. Sortie toxique : Le LLM génère involontairement des instructions biaisées ou violentes basées sur une requête utilisateur complexe.
Plage de score CVSS estimée
Critique (9,0 à 10,0).
Considérations relatives à l'impact sur le risque
Risque plus élevé pour l’IA des clients lorsque les réponses toxiques non vérifiées sont immédiatement visibles par le public.
Risque plus élevé quand
La détection de la toxicité est contournée en faveur d'une latence plus faible, ou lorsque le système est utilisé dans des langues non prises en charge où la précision de détection est nettement inférieure.
Risque faible quand
La détection de la toxicité est active et les administrateurs consultent régulièrement le Journal d'audit pour détecter les modèles toxiques et bloquer proactivement les réponses.
Considérations relatives à l'entreprise et à l'intégration
La détection de la toxicité ajoute une petite latence au « parcours de réponse ». Les administrateurs doivent définir des seuils clairs pour le score (par exemple > 0,7) qui déclenche un blocage automatique par rapport à un simple avertissement.
Guide d'examen sanitaire de sécurité
Security Health Review analyse la configuration de la couche Einstein Trust pour confirmer que la détection de la toxicité est activée.
Qui est impacté
Agents de conformité, RH, équipes juridiques et tout utilisateur qui interagit avec des fonctionnalités d’IA générative.

