위치:
안전 및 안전 - 독성 감지
AI 프롬프트 및 생성된 응답을 자동으로 스캔하여 여러 범주(예: 증오 언어, 폭력, 음모)에서 유해한 언어를 식별하고 플래그를 지정하고 점수를 매깁니다.
제어 이름
Einstein Trust Layer - 신속 및 응답의 독성 감지
제어 개요
AI 프롬프트 및 생성된 응답을 자동으로 스캔하여 여러 범주(예: 증오 언어, 폭력, 음모)에서 유해한 언어를 식별하고 플래그를 지정하고 점수를 매깁니다.
상세 설명
규칙 및 기계 학습의 하이브리드 시스템을 사용하여 콘텐츠에 독성 신뢰도 점수(0~1)를 할당합니다. 높은 점수는 독성 콘텐츠의 높은 가능성을 나타내므로 자동으로 차단하거나 플래그를 지정할 수 있습니다.
권장 구성
Einstein 설정에서 "독성 감지"를 활성화합니다. 모델 API가 독성 플래그를 전달하도록 구성되어 있고 Data Cloud의 Einstein 감사 내역을 통해 점수가 적극적으로 모니터링되는지 확인합니다.
보안 영향
AI가 편향, 불쾌하거나 법적으로 저하되는 자료를 생성하지 않도록 합니다.
비즈니스 영향
AI가 고객 또는 직원과 부적절하게 상호 작용하지 않도록 방지하고 HR 및 법률 규정 준수에 대한 보호 가능한 감사 내역을 제공하여 브랜드 평판을 보호합니다.
구성되지 않은 경우 보안 위험
활성 감지가 없으면 LLM이 독성 환각을 생성하거나 회사의 공식 입장으로 해석될 수 있는 유해한 콘텐츠가 포함된 악성 프롬프트에 응답할 수 있습니다.
위협 시나리오
프롬프트 주입: 사용자가 AI를 속여 비정상적인 응답을 생성합니다. 독성 출력: LLM은 복잡한 사용자 요청을 기반으로 편향 또는 폭력적인 지침을 실수로 생성합니다.
예상 CVSS 점수 범위
중요(9.0~10.0)
위험 영향 고려 사항
검사되지 않은 독성 반응이 즉시 공개적으로 표시되는 고객 대면 AI에 대한 위험이 높습니다.
위험이 높은 경우
대기 시간이 낮거나 감지 정확도가 현저하게 낮은 지원되지 않는 언어로 시스템을 사용하는 경우 독성 감지가 무시됩니다.
낮은 위험 시기
독성 감지는 활성 상태이며 관리자는 정기적으로 감사 내역을 검토하여 독성 패턴을 확인하고 사전에 응답을 차단합니다.
비즈니스 및 통합 고려 사항
독성 감지는 "응답 여정"에 약간의 대기 시간을 추가합니다. 관리자는 자동 블록과 단순 경고를 트리거하는 점수(예: >0.7)에 대해 명확한 임계값을 설정해야 합니다.
보안 상태 검토 지침
보안 상태 검토는 Einstein Trust 계층 설정을 검사하여 독성 감지가 활성화되었는지 확인합니다.
영향을 받는 사람
규정 준수 담당자, HR, 법률 팀, 생성형 AI 기능과 상호 작용하는 최종 사용자

