Вы находитесь здесь:
Безопасность и защита - обнаружение токсичности
Автоматически сканирует подсказки на основе искусственного интеллекта и созданные ответы для определения, обозначения и оценки вредных выражений в нескольких категориях (например, ненавистнические высказывания, насилие, нецензурная лексика).
Управление именем
Слой Einstein Trust - обнаружение токсичности в подсказке и ответе
Общие сведения о контроле
Автоматически сканирует подсказки на основе искусственного интеллекта и созданные ответы для определения, обозначения и оценки вредных выражений в нескольких категориях (например, ненавистнические высказывания, насилие, нецензурная лексика).
Описание
Использует гибридную систему правил и компьютерного обучения для назначения оценки надежности токсичности (0:1) содержимому. Высокие оценки указывают на высокую вероятность содержания токсичных веществ, что позволяет автоматически блокировать или помечать.
Рекомендованная конфигурация
Включите «Обнаружение токсичности» в настройках Einstein. Убедитесь, что API моделей настроен на передачу флагов токсичности и что рейтинги активно отслеживаются посредством контрольного журнала Einstein в Data Cloud.
Влияние на безопасность
Обеспечивает отсутствие предвзятых, оскорбительных или юридически компрометирующих материалов на основе искусственного интеллекта.
Влияние на бизнес
Обеспечивает репутацию торговой марки, предотвращая неправильное взаимодействие искусственного интеллекта с клиентами или сотрудниками, предоставляя при этом защищаемый контрольный журнал на соответствие кадровым и юридическим требованиям.
Риск безопасности, если он не настроен
Без активного обнаружения, LLM может создать токсичные галлюцинации или ответить на вредоносные подсказки с вредным содержимым, которые могут быть истолкованы как официальная позиция компании.
Сценарии угроз
Подсказка впрыска: Пользователь обманывает искусственный интеллект, создавая нецензурный ответ. Вывод токсичных веществ: LLM случайно создает предвзятые или жестокие инструкции на основе сложного запроса пользователя.
Примерный диапазон оценки CVSS
Критические (9,0-10,0).
Рекомендации по влиянию риска
Более высокий риск для искусственного интеллекта клиента, когда непроверенные токсичные реакции имеют непосредственную общедоступность.
Повышенный риск при
Определение токсичности пропускается в пользу более низкой задержки или при использовании системы на неподдерживаемых языках, где точность обнаружения значительно ниже.
Низкий риск при
Обнаружение токсичности активно, и администраторы регулярно проверяют контрольный журнал на наличие токсичных схем и активно блокируют ответы.
Рекомендации по бизнесу и интеграции
Обнаружение токсичности добавляет небольшую задержку в "Путешествие ответа". Администраторы должны установить четкие пороговые значения для оценки (например, >0.7), инициирующей автоматическую блокировку, по сравнению с простым предупреждением.
Руководство по проверке состояния безопасности
Проверка состояния безопасности сканирует настройки слоя Einstein Trust для подтверждения включения обнаружения токсичности.
На кого влияет
Сотрудники по соблюдению требований, отдел кадров, юридические группы и любой конечный пользователь, взаимодействующий с генерирующими функциями искусственного интеллекта.

