Sie befinden sich hier:
Sicherheit – Toxizitätserkennung
Scannt automatisch AI-Aufforderungen und generierte Antworten, um schädliche Sprache über mehrere Kategorien hinweg zu identifizieren, zu kennzeichnen und zu bewerten (z. B. Hassrede, Gewalt, Schimpfwörter).
Steuerelementname
Einstein Trust Layer – Toxizitätserkennung in der Eingabeaufforderung und Antwort
Steuerelementübersicht
Scannt automatisch AI-Aufforderungen und generierte Antworten, um schädliche Sprache über mehrere Kategorien hinweg zu identifizieren, zu kennzeichnen und zu bewerten (z. B. Hassrede, Gewalt, Schimpfwörter).
Beschreibung
Verwendet ein hybrides System aus Regeln und maschinellem Lernen, um Inhalt eine Toxizitätskonfidenzbewertung (0–1) zuzuweisen. Hohe Bewertungen weisen auf eine hohe Wahrscheinlichkeit toxischer Inhalte hin, was eine automatische Blockierung oder Kennzeichnung ermöglicht.
Empfohlene Konfiguration
Aktivieren Sie "Toxizitätserkennung" im Einstein Setup. Stellen Sie sicher, dass die Modell-API so konfiguriert ist, dass Toxizitätskennzeichnungen weitergegeben werden, und dass Bewertungen aktiv über das Einstein Audit Trail in Data Cloud überwacht werden.
Sicherheitsauswirkung
Stellt sicher, dass die AI kein verzerrtes, beleidigendes oder rechtlich kompromittierendes Material generiert.
Geschäftsauswirkungen
Schützt das Ansehen der Marke, indem verhindert wird, dass die AI unangemessen mit Kunden oder Mitarbeitern interagiert, und bietet gleichzeitig einen vertretbaren Überprüfungspfad für die Einhaltung der Vorschriften für Personalwesen und Recht.
Sicherheitsrisiko, wenn nicht konfiguriert
Ohne aktive Erkennung kann die LLM toxische Halluzinationen hervorrufen oder auf bösartige Aufforderungen mit schädlichem Inhalt reagieren, die als offizielle Haltung des Unternehmens interpretiert werden könnten.
Bedrohungsszenarien
Eingabeaufforderung: Ein Benutzer trickst die AI aus, um eine profane Antwort zu generieren. Toxische Ausgabe: Das LLM generiert versehentlich verzerrte oder gewalttätige Anweisungen auf der Grundlage einer komplexen Benutzeranforderung.
Geschätzter CVSS-Bewertungsbereich
Kritisch (9.0–10.0).
Überlegungen zu Risikoauswirkungen
Höheres Risiko für kundenorientierte AI, wenn nicht überprüfte toxische Antworten sofort öffentlich sichtbar sind.
Höheres Risiko, wenn
Die Toxizitätserkennung wird zugunsten einer geringeren Latenz umgangen oder wenn das System in nicht unterstützten Sprachen verwendet wird, in denen die Erkennungsgenauigkeit deutlich geringer ist.
Geringes Risiko, wenn
Die Toxizitätserkennung ist aktiv und Administratoren überprüfen den Audit Trail regelmäßig auf toxische Muster und blockieren proaktiv Antworten.
Überlegungen zu Unternehmen und Integration
Die Toxizitätserkennung fügt der "Antwort-Journey" eine geringe Latenz hinzu. Administratoren sollten klare Schwellenwerte dafür festlegen, welche Bewertung (z. B. > 0,7) eine automatische Blockierung auslöst, statt eine einfache Warnung zu erhalten.
Anleitung zur Sicherheitsintegritätsprüfung
Die Sicherheitsintegritätsprüfung überprüft das Setup der Einstein Trust Layer, um zu bestätigen, dass die Toxizitätserkennung aktiviert ist.
Wer ist betroffen?
Compliance-Beauftragte, HR, Rechtsteams und alle Endbenutzer, die mit Funktionen der generativen AI interagieren.

