Loading
Configuración y mantenimiento de su organización de Salesforce
Índice de materias
Seleccionar filtros

          No hay resultados
          No hay resultados
          Estas son algunas sugerencias de búsqueda

          Compruebe la ortografía de sus palabras clave.
          Utilice términos de búsqueda más generales.
          Seleccione menos filtros para ampliar su búsqueda.

          Buscar en toda la Ayuda de Salesforce
          Seguridad - Detección de toxicidad

          Seguridad - Detección de toxicidad

          Explora automáticamente solicitudes de IA y respuestas generadas para identificar, marcar y puntuar lenguaje dañino en múltiples categorías (por ejemplo, discurso de odio, violencia, blasfemias).

          Nombre de control

          Capa Einstein Trust - Detección de toxicidad en solicitud y respuesta

          Descripción general de control

          Explora automáticamente solicitudes de IA y respuestas generadas para identificar, marcar y puntuar lenguaje dañino en múltiples categorías (por ejemplo, discurso de odio, violencia, blasfemias).

          Descripción

          Utiliza un sistema híbrido de reglas y aprendizaje automático para asignar una puntuación de confianza de toxicidad (0-1) al contenido. Las puntuaciones altas indican una alta probabilidad de contenido tóxico, lo que permite el bloqueo o marcado automatizado.

          Configuración recomendada

          Active "Detección de toxicidad" en Configuración Einstein. Asegúrese de que la API de modelos está configurada para pasar indicadores de toxicidad y que las puntuaciones se supervisan activamente a través del Seguimiento de auditoría de Einstein en Data Cloud.

          Repercusión en la seguridad

          Garantiza que la IA no genere material sesgado, ofensivo o que comprometa legalmente.

          Repercusión comercial

          Protege la reputación de la marca evitando que la IA interactúe de forma inapropiada con clientes o empleados, proporcionando al mismo tiempo un seguimiento de auditoría defendible para el cumplimiento legal y de RRHH.

          Riesgo de seguridad si no está configurado

          Sin detección activa, el LLM puede producir alucinaciones tóxicas o responder a solicitudes maliciosas con contenido dañino que podría interpretarse como la postura oficial de la empresa.

          Escenarios de amenazas

          Solicitud de inyección: Un usuario engaña a la IA para que genere una respuesta profana. Salida tóxica: El LLM genera inadvertidamente instrucciones sesgadas o violentas basándose en una solicitud de usuario compleja.

          Intervalo de puntuación de CVSS estimado

          Crítico (9,0 a 10,0).

          Consideraciones sobre el impacto del riesgo

          Mayor riesgo de IA de cara al cliente donde las respuestas tóxicas sin investigar tienen visibilidad pública inmediata.

          Riesgo más alto cuando

          La detección de toxicidad se omite en favor de una latencia más baja, o cuando el sistema se utiliza en idiomas no compatibles donde la precisión de detección es significativamente menor.

          Bajo riesgo cuando

          La detección de toxicidad está activa y los administradores revisan regularmente el Seguimiento de auditoría para patrones tóxicos y bloquean respuestas de forma proactiva.

          Consideraciones comerciales y de integración

          La detección de toxicidad agrega una pequeña cantidad de latencia a la "Trayectoria de respuesta". Los administradores deben establecer umbrales claros para qué puntuación (por ejemplo, >0,7) desencadena un bloqueo automático frente a una simple advertencia.

          Directrices de revisión del estado de seguridad

          Security Health Review explora la Configuración de la capa Einstein Trust para confirmar que la detección de toxicidad está activada.

          Quién se ve afectado

          Responsables de cumplimiento, RRHH, Equipos legales y cualquier usuario final que interactúe con funciones de IA generativa.

           
          Cargando
          Salesforce Help | Article