Ti trovi qui:
Sicurezza - Controllo del rilevamento della tossicità
Analizza automaticamente i prompt AI e le risposte generate per identificare, segnalare e calcolare il punteggio del linguaggio dannoso in più categorie (ad esempio, discorsi di odio, violenza, volgarità).
Nome controllo
Einstein Trust Layer - Rilevamento della tossicità in prompt e risposta
Panoramica sul controllo
Analizza automaticamente i prompt AI e le risposte generate per identificare, segnalare e calcolare il punteggio del linguaggio dannoso in più categorie (ad esempio, discorsi di odio, violenza, volgarità).
Descrizione
Utilizza un sistema ibrido di regole e machine learning per assegnare un punteggio di confidenza della tossicità (0–1) al contenuto. I punteggi elevati indicano un'alta probabilità di contenuto tossico, consentendo il blocco o la segnalazione automatici.
Configurazione consigliata
Abilitare "Rilevamento tossicità" in Imposta Einstein. Assicurarsi che l'API Modelli sia configurata per passare i flag di tossicità e che i punteggi siano monitorati attivamente tramite l'itinerario di controllo Einstein in Data Cloud.
Impatto sulla sicurezza
Garantisce che l'intelligenza artificiale non generi materiale distorto, offensivo o legalmente compromettente.
Impatto sul business
Salvaguarda la reputazione del marchio impedendo all'intelligenza artificiale di interagire in modo inappropriato con clienti o dipendenti, fornendo al contempo un itinerario di controllo difendibile per la conformità alle risorse umane e alla legge.
Rischio per la sicurezza se non configurato
Senza un rilevamento attivo, il LLM può produrre allucinazioni tossiche o rispondere a prompt dannosi con contenuti dannosi che potrebbero essere interpretati come la posizione ufficiale dell'azienda.
Scenari di minaccia
Iniezione prompt: Un utente inganna l'intelligenza artificiale per generare una risposta profana. Output tossico: LLM genera inavvertitamente istruzioni distorte o violente in base a una richiesta utente complessa.
Intervallo di punteggi CVSS stimato
Critico (9.0–10.0).
Considerazioni sull'impatto del rischio
Rischio più elevato per l'intelligenza artificiale indirizzata ai clienti quando le risposte tossiche non verificate hanno visibilità pubblica immediata.
Rischio maggiore quando
Il rilevamento della tossicità viene ignorato a favore di una latenza più bassa o quando il sistema viene utilizzato in lingue non supportate in cui la precisione di rilevamento è significativamente inferiore.
Basso rischio quando
Il rilevamento della tossicità è attivo e gli amministratori rivedono regolarmente l'itinerario di controllo alla ricerca di schemi tossici e bloccano le risposte in modo proattivo.
Considerazioni su Business e integrazione
Il rilevamento della tossicità aggiunge una piccola quantità di latenza al "Journey di risposta". Gli amministratori devono impostare soglie chiare per il punteggio (ad esempio, > 0,7) che attiva un blocco automatico anziché un semplice avviso.
Guida all'esame dello stato della sicurezza
Security Health Review analizza l'impostazione Einstein Trust Layer per verificare che sia abilitato il rilevamento della tossicità.
Chi è interessato
Responsabili della conformità, risorse umane, team legali e qualsiasi utente finale che interagisce con le funzioni di intelligenza artificiale generativa.

