Usted está aquí:
Seguridad - Detección de toxicidad
Explora automáticamente solicitudes de IA y respuestas generadas para identificar, marcar y puntuar lenguaje dañino en múltiples categorías (por ejemplo, discurso de odio, violencia, blasfemias).
Nombre de control
Capa Einstein Trust - Detección de toxicidad en solicitud y respuesta
Descripción general de control
Explora automáticamente solicitudes de IA y respuestas generadas para identificar, marcar y puntuar lenguaje dañino en múltiples categorías (por ejemplo, discurso de odio, violencia, blasfemias).
Descripción
Utiliza un sistema híbrido de reglas y aprendizaje automático para asignar una puntuación de confianza de toxicidad (0-1) al contenido. Las puntuaciones altas indican una alta probabilidad de contenido tóxico, lo que permite el bloqueo o marcado automatizado.
Configuración recomendada
Active "Detección de toxicidad" en Configuración Einstein. Asegúrese de que la API de modelos está configurada para pasar indicadores de toxicidad y que las puntuaciones se supervisan activamente a través del Seguimiento de auditoría de Einstein en Data Cloud.
Repercusión en la seguridad
Garantiza que la IA no genere material sesgado, ofensivo o que comprometa legalmente.
Repercusión comercial
Protege la reputación de la marca evitando que la IA interactúe de forma inapropiada con clientes o empleados, proporcionando al mismo tiempo un seguimiento de auditoría defendible para el cumplimiento legal y de RRHH.
Riesgo de seguridad si no está configurado
Sin detección activa, el LLM puede producir alucinaciones tóxicas o responder a solicitudes maliciosas con contenido dañino que podría interpretarse como la postura oficial de la empresa.
Escenarios de amenazas
Solicitud de inyección: Un usuario engaña a la IA para que genere una respuesta profana. Salida tóxica: El LLM genera inadvertidamente instrucciones sesgadas o violentas basándose en una solicitud de usuario compleja.
Intervalo de puntuación de CVSS estimado
Crítico (9,0 a 10,0).
Consideraciones sobre el impacto del riesgo
Mayor riesgo de IA de cara al cliente donde las respuestas tóxicas sin investigar tienen visibilidad pública inmediata.
Riesgo más alto cuando
La detección de toxicidad se omite en favor de una latencia más baja, o cuando el sistema se utiliza en idiomas no compatibles donde la precisión de detección es significativamente menor.
Bajo riesgo cuando
La detección de toxicidad está activa y los administradores revisan regularmente el Seguimiento de auditoría para patrones tóxicos y bloquean respuestas de forma proactiva.
Consideraciones comerciales y de integración
La detección de toxicidad agrega una pequeña cantidad de latencia a la "Trayectoria de respuesta". Los administradores deben establecer umbrales claros para qué puntuación (por ejemplo, >0,7) desencadena un bloqueo automático frente a una simple advertencia.
Directrices de revisión del estado de seguridad
Security Health Review explora la Configuración de la capa Einstein Trust para confirmar que la detección de toxicidad está activada.
Quién se ve afectado
Responsables de cumplimiento, RRHH, Equipos legales y cualquier usuario final que interactúe con funciones de IA generativa.

