breadcrumbDescription
Sikkerhed og sikkerhed - toksicitetsregistrering
Scanner automatisk AI-meddelelser og genererede svar for at identificere, markere og score skadelig sprog på tværs af flere kategorier (f.eks. hadtale, vold, forbandelse).
Kontrolnavn
Einstein Trust Layer - toksicitetsregistrering i Meddelelse og svar
Kontroller oversigt
Scanner automatisk AI-meddelelser og genererede svar for at identificere, markere og score skadelig sprog på tværs af flere kategorier (f.eks. hadtale, vold, forbandelse).
Beskrivelse
Bruger et hybridsystem af regler og maskinlæring til at tildele en toksicitetskonfidensscore (0-1) til indhold. Høje scores angiver en høj sandsynlighed for giftigt indhold, hvilket tillader automatiseret blokering eller markering.
Anbefalet konfiguration
Aktiver "Toksicitetsregistrering" i Einstein. Sørg for, at Models API er konfigureret til at overføre toksicitetsflag, og at scores overvåges aktivt via Einstein i Data Cloud.
Sikkerhedspåvirkning
Sikrer, at AI ikke genererer partisk, stødende eller juridisk kompromitterende materiale.
Forretningspåvirkning
Beskytter brandomtale ved at forhindre AI i at interagere upassende med kunder eller medarbejdere, mens det giver et forsvarligt revisionsspor for HR- og juridisk compliance.
Sikkerhedsrisiko, hvis den ikke er konfigureret
Uden aktiv registrering kan LLM producere giftige hallucinationer eller reagere på ondsindede meddelelser med skadeligt indhold, der kan fortolkes som firmaets officielle holdning.
Trusselscenarier
Meddelelsesinjektion: En bruger snyder AI til at generere et profant svar. Toksisk output: LLM genererer utilsigtet partiske eller voldelige instruktioner baseret på en kompleks brugeranmodning.
Estimeret CVSS-scoringsinterval
Kritisk (9,0-10,0).
Overvejelser i forbindelse med risikopåvirkning
Højere risiko for kundeorienteret AI, hvor ikke-vurderede toksiske reaktioner har øjeblikkelig offentlig synlighed.
Højere risiko når
Toksicitetsregistrering tilsidesættes til fordel for en lavere forsinkelse, eller når systemet bruges på ikke-understøttede sprog, hvor registreringsnøjagtigheden er væsentligt lavere.
Lav risiko når
Toksicitetsregistrering er aktiv, og administratorer gennemser regelmæssigt revisionssporet for toksiske mønstre og blokerer proaktivt svar.
Overvejelser i forbindelse med forretning og integration
Giftighedsregistrering føjer en lille mængde forsinkelse til "svarrejse". Administratorer bør angive tydelige tærskler for, hvilken score (f.eks. >0,7) der udløser en automatisk blok i forhold til en simpel advarsel.
Vejledning til sikkerhedstilstandsgennemgang
Sikkerhedstilstandscheck scanner opsætningen af Einstein Trust Layer for at bekræfte, at toksicitetsregistrering er aktiveret.
Hvem er påvirket
Overensstemmelsesmedarbejdere, personale, juridiske team og enhver slutbruger, der interagerer med generative AI-funktioner.

