Du är här:
Trygghet och säkerhet - Kontroll av toxicitetsdetektering
Söker automatiskt igenom AI-uppmaningar och genererade svar för att identifiera, flagga och betygsätta skadligt språk i flera kategorier (till exempel hatpropaganda, våld, svordomar).
Kontrollnamn
Einstein Trust Layer - Toxicitetsdetektering i uppmaning och svar
Kontrollöversikt
Söker automatiskt igenom AI-uppmaningar och genererade svar för att identifiera, flagga och betygsätta skadligt språk i flera kategorier (till exempel hatpropaganda, våld, svordomar).
Beskrivning
Använder ett hybridsystem av regler och maskininlärning för att tilldela ett förtroendebetyg för toxicitet (0–1) till innehåll. Höga betyg indikerar en hög sannolikhet för giftigt innehåll, vilket tillåter automatiserad blockering eller flaggning.
Rekommenderad konfiguration
Aktivera "Toxicity Detection" i Einstein Inställningar. Se till att Models API är konfigurerat att skicka toxicitetsflagg och att betyg aktivt bevakas via Einstein Granskningslogg i Data Cloud.
Säkerhetspåverkan
Säkerställer att AI inte skapar partiskt, stötande eller juridiskt komprometterande material.
Verksamhetspåverkan
Skyddar varumärkets anseende genom att förhindra att AI interagerar olämpligt med kunder eller anställda, samtidigt som det ger en försvarbar verifieringskedja för efterlevnad av HR och lagar.
Säkerhetsrisk om den inte är konfigurerad
Utan aktiv upptäckt kan LLM skapa toxiska hallucinationer eller svara på skadliga uppmaningar med skadligt innehåll som kan tolkas som företagets officiella ställningstagande.
Hotscenarier
Uppmaning till injektion: En användare lurar AI att skapa ett profant svar. Giftig produktion: LLM skapar oavsiktligt partiska eller våldsamma instruktioner baserat på en komplex användarbegäran.
Uppskattat CVSS-betygintervall
Kritisk (9,0-10,0).
Att tänka på vad gäller riskpåverkan
Högre risk för kundriktad AI där okontrollerade toxiska svar har omedelbar offentlig synlighet.
Högre risk när
Toxicitetsdetektering förbigås till förmån för lägre latens, eller när systemet används på språk som inte stöds där detekteringsprecisionen är betydligt lägre.
Låg risk när
Toxicitetsidentifiering är aktiv och administratörer granskar regelbundet granskningsloggen för toxiska mönster och blockerar proaktivt svar.
Att tänka på vad gäller affärer och integration
Toxicitetsdetektering lägger till en liten mängd latens i "Svarsresa". Administratörer bör ange tydliga trösklar för vilket betyg (till exempel >0,7) som utlöser ett automatiskt block jämfört med en enkel varning.
Vägledning för granskning av säkerhetshälsa
Säkerhetshälsogranskning söker igenom inställningarna för Einstein Trust Layer för att bekräfta att upptäckt av toxicitet har aktiverats.
Vem påverkas
Compliance Officers, HR, juridiska team och slutanvändare som interagerar med funktioner för genererande AI.

