U bent hier:
Veiligheid en beveiliging - Toxiciteitsdetectie
Scant automatisch AI-aanwijzingen en gegenereerde reacties om schadelijke taal te identificeren, signaleren en scoren voor meerdere categorieën (bijvoorbeeld haatzaaiende taal, geweld, scheldwoorden).
Controlenaam
Einstein Trust Layer - Toxiciteitsdetectie in aanwijzing en reactie
Overzicht van besturingselementen
Scant automatisch AI-aanwijzingen en gegenereerde reacties om schadelijke taal te identificeren, signaleren en scoren voor meerdere categorieën (bijvoorbeeld haatzaaiende taal, geweld, scheldwoorden).
Beschrijving
Gebruikt een hybride systeem van regels en machine learning om een score voor toxiciteitsvertrouwen (0–1) toe te wijzen aan inhoud. Hoge scores duiden op een grote kans op giftige inhoud, waardoor automatisch blokkeren of signaleren mogelijk is.
Aanbevolen configuratie
Schakel "Toxicity Detection" in Einstein Set-up in. Zorg ervoor dat de Models-API is geconfigureerd om toxiciteitsvlaggen door te geven en dat scores actief worden bewaakt via Einstein Audit Trail in Data Cloud.
Impact op beveiliging
Zorgt ervoor dat de AI geen vertekend, aanstootgevend of juridisch compromitterend materiaal genereert.
Business Impact
Beschermt merkreputatie door te voorkomen dat de AI ongepaste interactie heeft met klanten of werknemers, terwijl het een verdedigbaar controletraject biedt voor naleving van HR en juridische zaken.
Beveiligingsrisico indien niet geconfigureerd
Zonder actieve detectie kan de LLM giftige hallucinaties veroorzaken of reageren op kwaadwillige aanwijzingen met schadelijke inhoud die kan worden geïnterpreteerd als de officiële positie van het bedrijf.
Dreigingsscenario's
Promptinjectie: Een gebruiker laat de AI een profane reactie genereren. Giftige uitvoer: De LLM genereert onbedoeld vertekende of gewelddadige instructies op basis van een complex gebruikersverzoek.
Geschatte CVSS-scorebereik
Kritiek (9,0–10,0).
Overwegingen bij risico-impact
Groter risico op klantgerichte AI waarbij niet-onderzochte toxische reacties onmiddellijk zichtbaar zijn voor het publiek.
Hoger risico wanneer
Toxiciteitsdetectie wordt omzeild ten gunste van een lagere latentie of wanneer het systeem wordt gebruikt in niet-ondersteunde talen waar de detectienauwkeurigheid aanzienlijk lager is.
Laag risico wanneer
Toxiciteitsdetectie is actief en beheerders controleren het controletraject regelmatig op giftige patronen en blokkeren proactief reacties.
Overwegingen bij bedrijf en integratie
Toxiciteitsdetectie voegt een kleine hoeveelheid latentie toe aan de "Responsjourney". Beheerders moeten duidelijke drempelwaarden instellen voor welke score (bijvoorbeeld >0,7) een automatisch blok activeert ten opzichte van een eenvoudige waarschuwing.
Begeleiding bij beoordeling van beveiligingstoestand
Beoordeling van beveiligingstoestand scant de set-up van Einstein Trust Layer om te bevestigen dat toxiciteitsdetectie is ingeschakeld.
Wie wordt beïnvloed
Compliance Officers, HR, juridische teams en alle eindgebruikers die werken met generatieve AI-voorzieningen.

