Loading
Säkra din Salesforce-organisation
Innehållsförteckningar
Välj filter

          Inga resultat
          Inga resultat
          Här är några söktips

          Kontrollera stavningen av dina nyckelord.
          Använd mer allmänna söktermer.
          Välj färre filter för att utöka din sökning.

          Sök hela Salesforce-hjälpen
          Trygghet och säkerhet - Kontroll av toxicitetsdetektering

          Trygghet och säkerhet - Kontroll av toxicitetsdetektering

          Söker automatiskt igenom AI-uppmaningar och genererade svar för att identifiera, flagga och betygsätta skadligt språk i flera kategorier (till exempel hatpropaganda, våld, svordomar).

          Kontrollnamn

          Einstein Trust Layer - Toxicitetsdetektering i uppmaning och svar

          Kontrollöversikt

          Söker automatiskt igenom AI-uppmaningar och genererade svar för att identifiera, flagga och betygsätta skadligt språk i flera kategorier (till exempel hatpropaganda, våld, svordomar).

          Beskrivning

          Använder ett hybridsystem av regler och maskininlärning för att tilldela ett förtroendebetyg för toxicitet (0–1) till innehåll. Höga betyg indikerar en hög sannolikhet för giftigt innehåll, vilket tillåter automatiserad blockering eller flaggning.

          Rekommenderad konfiguration

          Aktivera "Toxicity Detection" i Einstein Inställningar. Se till att Models API är konfigurerat att skicka toxicitetsflagg och att betyg aktivt bevakas via Einstein Granskningslogg i Data Cloud.

          Säkerhetspåverkan

          Säkerställer att AI inte skapar partiskt, stötande eller juridiskt komprometterande material.

          Verksamhetspåverkan

          Skyddar varumärkets anseende genom att förhindra att AI interagerar olämpligt med kunder eller anställda, samtidigt som det ger en försvarbar verifieringskedja för efterlevnad av HR och lagar.

          Säkerhetsrisk om den inte är konfigurerad

          Utan aktiv upptäckt kan LLM skapa toxiska hallucinationer eller svara på skadliga uppmaningar med skadligt innehåll som kan tolkas som företagets officiella ställningstagande.

          Hotscenarier

          Uppmaning till injektion: En användare lurar AI att skapa ett profant svar. Giftig produktion: LLM skapar oavsiktligt partiska eller våldsamma instruktioner baserat på en komplex användarbegäran.

          Uppskattat CVSS-betygintervall

          Kritisk (9,0-10,0).

          Att tänka på vad gäller riskpåverkan

          Högre risk för kundriktad AI där okontrollerade toxiska svar har omedelbar offentlig synlighet.

          Högre risk när

          Toxicitetsdetektering förbigås till förmån för lägre latens, eller när systemet används på språk som inte stöds där detekteringsprecisionen är betydligt lägre.

          Låg risk när

          Toxicitetsidentifiering är aktiv och administratörer granskar regelbundet granskningsloggen för toxiska mönster och blockerar proaktivt svar.

          Att tänka på vad gäller affärer och integration

          Toxicitetsdetektering lägger till en liten mängd latens i "Svarsresa". Administratörer bör ange tydliga trösklar för vilket betyg (till exempel >0,7) som utlöser ett automatiskt block jämfört med en enkel varning.

          Vägledning för granskning av säkerhetshälsa

          Säkerhetshälsogranskning söker igenom inställningarna för Einstein Trust Layer för att bekräfta att upptäckt av toxicitet har aktiverats.

          Vem påverkas

          Compliance Officers, HR, juridiska team och slutanvändare som interagerar med funktioner för genererande AI.

           
          Laddar
          Salesforce Help | Article