Olet tässä:
Turvallisuus ja turvallisuus - toksisuuden havaitseminen
Skannaa tekoälyn kehotteet ja luodut vastaukset automaattisesti tunnistaakseen, merkitäkseen ja pisteyttääkseen haitallisia kieliä useista kategorioista (esimerkiksi vihaus, väkivalta, häpäisy).
Ohjaimen nimi
Einstein Trust Layer - toksisuuden havaitseminen kehotteissa ja vastauksissa
Ohjauksen yleiskatsaus
Skannaa tekoälyn kehotteet ja luodut vastaukset automaattisesti tunnistaakseen, merkitäkseen ja pisteyttääkseen haitallisia kieliä useista kategorioista (esimerkiksi vihaus, väkivalta, häpäisy).
Kuvaus
Käyttää sääntöjen ja koneoppimisen yhdistelmää kohdistaakseen sisältöön toksisuuden luottamuspisteytyksen (0–1). Korkeat pisteet osoittavat, että toksinen sisältö on todennäköistä, mikä mahdollistaa automatisoidun eston tai merkitsemisen.
Suositeltu kokoonpano
Ota ”Toksisuuksien havaitseminen” käyttöön Määritykset-valikosta Einstein. Varmista, että Mallien API on määritetty välittämään toksisuusmerkinnät ja että pistemääriä seurataan aktiivisesti Einsteinin kirjausketjun kautta Data Cloudissa.
Tietoturvan vaikutus
Varmistaa, että tekoäly ei luo puolueellista, loukkaavaa tai laillisesti vaarallista materiaalia.
Liiketoiminnan vaikutus
Suojaa brändin maineen estämällä tekoälyä vuorovaikuttamasta asiattomasti asiakkaiden tai työntekijöiden kanssa ja tarjoamalla samalla suojattavan tilintarkastuspolun henkilöstö- ja lakisääteiseen vaatimustenmukaisuuteen.
Tietoturvariski, jos ei määritetty
Ilman aktiivista havaintoa LLM voi aiheuttaa myrkyllisiä hallusinaatioita tai vastata haitallisiin kehotteisiin haitallisella sisällöllä, jota voidaan tulkita yhtiön viralliseksi kannaksi.
Uhkien skenaariot
Kehotteen injektio: Käyttäjä huijaa tekoälyn luomaan epäsuoran vastauksen. Toksinen-tulos: LLM luo vahingossa puolueettomia tai väkivaltaisia ohjeita monimutkaisen käyttäjäpyynnön perusteella.
Arvioitu CVSS-pistealue
Kriittinen (9.0–10.0).
Riskien vaikutuksissa huomioitavia asioita
Korkeampi riski asiakkaille tarkoitetulle tekoälylle, jossa tarkastamattomat toksiset vastaukset näkyvät välittömästi julkisuuteen.
Korkeampi riski, kun
Toxicity-havainto ohitetaan vähemmän viiveen puolesta tai kun järjestelmää käytetään ei-tuetuilla kielillä, joissa havaintojen tarkkuus on merkittävästi alhaisempi.
Matalan riskin milloin
Myrkyllisyyden havaitseminen on aktiivinen, ja pääkäyttäjät tarkastavat säännöllisesti tarkastuspolun toksisten kuvioiden varalta ja estävät vastaukset ennakoivasti.
Liiketoiminnassa ja integraatiossa huomioitavia asioita
Myrkyllisyyden havaitseminen lisää pienen määrän viiveitä "Response-matkaan". Pääkäyttäjien tulisi määrittää selkeät kynnysarvot sille, mikä pistemäärä (esimerkiksi > 0,7) käynnistää automaattisen lohkon eikä yksinkertaista varoitusta.
Tietoturvan terveystarkastuksen ohjeet
Tietoturvan terveystarkastus skannaa Einsteinin Trust Layer -määritykset varmistaakseen, että toksisuuksien havaitseminen on käytössä.
Kuka vaikuttaa
Vaatimustenmukaisuusvirkailijat, henkilöstöosastot, lakitiimit ja kaikki loppukäyttäjät, jotka käyttävät generoivia tekoälyominaisuuksia.

