提示注入检测 (Beta)
提示注入,有时称为“越狱”,是一个大型语言模型 (LLM) 漏洞。提示注入是尝试使 LLM 执行并非设计执行的操作。黑客可以创建提示,尝试覆盖系统策略或操纵 LLM 执行意外操作。
所需的 Edition
| 适用于:Enterprise、Performance 和 Unlimited Edition,带有 Einstein for Sales、Einstein for Platform、Einstein for Service、Einstein 1 Service 或 Einstein GPT Service 加载项。要购买加载项,请联系您的 Salesforce 客户主管。 |
提示注入可以直接在提示文本中引入,也可以通过提示中包含的数据源间接引入。
Salesforce 提示注入检测模型识别这些类型的提示注入攻击:
| 类型 | 描述 |
|---|---|
| 假装(角色扮演) | 提示,指示 AI 恶意采用不同的系统角色,并使用欺骗性或误导性语言在社交工程攻击中操纵它 |
| 权限升级或尝试更改系统规则 | 包含绕过或更改系统规则和绕过语言模型安全培训的有害命令的提示,包括违反安全限制的攻击,例如立即行动 (DAN) 越狱攻击 |
| 提示泄露意图 | 旨在从语言模型中收集敏感信息的提示,例如系统策略和 Knowledge 文档,以获取未经授权的信息 |
| 编码攻击 | 在提示中使用混淆或隐藏的消息,使语言模型产生恶意、不一致或有毒内容 |
| 隐私攻击 | 尝试获取个人或机密信息以获取对数据的未授权访问或滥用信息的提示 |
| 恶意软件生成 | 尝试生成有害计算机代码的提示,例如恶意软件、病毒或旨在实施欺诈和其他恶意的工具或软件。 |
如果检测到提示注入,将对内容进行评级,并将分数记录在审计跟踪中并存储在 Data 360 中。您可以在 Data 360 DMO 中查看提示注入分数。
重要 虽然我们的快速注入检测模型在内部测试期间被证明是有效的,但重要的是要注意,没有一个模型能够保证 100% 的准确性。以 Trust 为重,我们致力于对模型进行持续评估和完善。
另请参阅:
本文章是否解决您的问题?
请与我们共享您的想法,以便我们进行改进!

