Usted está aquí:
Seguridad - Detección de toxicidad
Explora automáticamente solicitudes de IA y respuestas generadas para identificar, marcar y puntuar lenguaje dañino entre múltiples categorías (por ejemplo, discurso de odio, violencia, blasfemias).
Nombre de control
Capa Einstein Trust - Detección de toxicidad en solicitud y respuesta
Descripción general de control
Explora automáticamente solicitudes de IA y respuestas generadas para identificar, marcar y puntuar lenguaje dañino entre múltiples categorías (por ejemplo, discurso de odio, violencia, blasfemias).
Descripción
Utiliza un sistema híbrido de reglas y aprendizaje automático para asignar un puntuaje de confianza de toxicidad (0-1) al contenido. Los puntuajes altos indican una alta probabilidad de contenido tóxico, lo que permite el bloqueo o marcado automatizado.
Configuración recomendada
Active "Detección de toxicidad" en Configuración Einstein. Asegúrese de que la API de modelos está configurada para pasar indicadores de toxicidad y que los puntuajes se monitorean activamente a través del Seguimiento de auditoría de Einstein en Data Cloud.
Impacto de seguridad
Garantiza que la IA no genere material sesgado, ofensivo o que comprometa legalmente.
Repercusión de negocio
Salvaguarda la reputación de la marca evitando que la IA interactúe de forma inapropiada con clientes o empleados, proporcionando al mismo tiempo un seguimiento de auditoría defendible para el cumplimiento legal y de RRHH.
Riesgo de seguridad si no está configurado
Sin detección activa, el LLM puede producir alucinaciones tóxicas o responder a solicitudes maliciosas con contenido dañino que podría interpretarse como la postura oficial de la compañía.
Escenarios de amenazas
Solicitud de inyección: Un usuario engaña a la IA para que genere una respuesta profana. Resultado tóxico: El LLM genera inadvertidamente instrucciones sesgadas o violentas basándose en una solicitud de usuario compleja.
Intervalo de puntuaje de CVSS estimado
Crítico (9,0 a 10,0).
Consideraciones de impacto de riesgo
Mayor riesgo de IA de cara al cliente donde las respuestas tóxicas sin investigar tienen visibilidad pública inmediata.
Mayor riesgo cuando
La detección de toxicidad se omite en favor de una latencia más baja, o cuando el sistema se utiliza en idiomas no admitidos donde la precisión de la detección es significativamente menor.
Bajo riesgo cuando
La detección de toxicidad está activa y los administradores revisan regularmente el seguimiento de auditoría para patrones tóxicos y bloquean respuestas de forma proactiva.
Consideraciones de negocio e integración
La detección de toxicidad agrega una pequeña cantidad de latencia a la "Trayectoria de respuesta". Los administradores deben establecer umbrales claros para qué puntuaje (por ejemplo, >0,7) desencadena un bloqueo automático frente a una simple advertencia.
Directrices de revisión del estado de seguridad
Security Health Review explora la Configuración de Einstein Trust Layer para confirmar que la detección de toxicidad está activada.
Quién se ve afectado
Responsables de cumplimiento, RRHH, Equipos legales y cualquier usuario final que interactúe con funciones de IA generativa.

