Você está aqui:
Segurança e segurança – Detecção de toxicidade
Verifica automaticamente avisos de IA e respostas geradas para identificar, sinalizar e pontuar linguagem prejudicial em várias categorias (por exemplo, discurso de ódio, violência, profanação).
Nome do controle
Camada do Einstein Trust - Detecção de toxicidade em resposta imediata
Visão geral de controle
Verifica automaticamente avisos de IA e respostas geradas para identificar, sinalizar e pontuar linguagem prejudicial em várias categorias (por exemplo, discurso de ódio, violência, profanação).
Descrição
Usa um sistema híbrido de regras e aprendizado de máquina para atribuir uma pontuação de confiança de toxicidade (0-1) ao conteúdo. Pontuações altas indicam uma alta probabilidade de conteúdo tóxico, permitindo bloqueio ou sinalização automatizados.
Configuração recomendada
Habilite "Detecção de toxicidade" na Configuração do Einstein. Verifique se a API de modelos está configurada para passar os sinalizadores de toxicidade e se as pontuações são monitoradas ativamente por meio da Trilha de auditoria do Einstein no Data Cloud.
Impacto na segurança
Garante que a IA não gere material com viés, ofensivo ou legalmente comprometedor.
Impacto nos negócios
Protege a reputação da marca impedindo que a IA interaja inadequadamente com clientes ou funcionários, ao mesmo tempo que fornece uma trilha de auditoria defensível para conformidade de RH e Legal.
Risco de segurança, se não configurado
Sem detecção ativa, o LLM pode produzir alucinações tóxicas ou responder a avisos mal-intencionados com conteúdo prejudicial que poderia ser interpretado como a posição oficial da empresa.
Cenários de ameaça
Injeção de prompt: Um usuário induz a IA a gerar uma resposta profana. Saída tóxica: O LLM gera inadvertidamente instruções com viés ou violentas com base em uma solicitação de usuário complexa.
Intervalo de pontuação de CVSS estimado
Crítico (9.0 a 10.0).
Considerações sobre impacto de risco
Maior risco para IA voltada para o cliente em que respostas tóxicas não verificadas têm visibilidade pública imediata.
Risco maior quando
A detecção de toxicidade é ignorada em favor de menor latência ou quando o sistema é usado em idiomas sem suporte em que a precisão da detecção é significativamente menor.
Baixo risco quando
A detecção de toxicidade está ativa e os administradores revisam regularmente a Trilha de auditoria quanto a padrões tóxicos e bloqueiam proativamente as respostas.
Considerações de negócios e integração
A detecção de toxicidade adiciona uma pequena quantidade de latência à "Jornada de resposta". Os administradores devem definir limites claros para qual pontuação (por exemplo, >0,7) aciona um bloco automático versus um aviso simples.
Diretriz de revisão de saúde de segurança
A Análise de integridade de segurança verifica a Configuração da Camada de Trust do Einstein para confirmar se a detecção de toxicidade está habilitada.
Quem é afetado
Agentes de conformidade, RH, equipes jurídicas e qualquer usuário final que interaja com recursos de IA generativa.

