定义要从文档提取哪些数据
文档处理配置定义了从文档提取数据的结构和规则。通过创建这些配置,您可以定义要查找的信息以及如何组织提取的数据。在流中处理文档或设置审查工作流之前,此步骤至关重要。
所需的 Edition
| 适用于:Lightning Experience |
| 查看支持的版本。 |
| 此功能需要 MuleSoft for Flow:IDP 加载项。Professional Edition 需要 API 访问权限加载项。要购买,请联系您的 Salesforce 客户主管。 |
| 文档处理功能需要在“设置”中打开 Einstein 生成式 AI,并为贵组织配置和启用 Data 360。 |
| MuleSoft for Flow:Agentforce 使用的 IDP 功能需要 Foundations 或 Agentforce 1 版本。要购买这些版本,请联系您的 Salesforce 客户主管。 |
| 所需用户权限 | |
|---|---|
| 创建、读取、编辑和删除文档处理配置: | 管理文档处理配置 |
在定义要从文档提取哪些数据之前,请确保:
- 您想要处理类型的示例文档(PDF、图像或扫描文档)
- 您想要从文档中提取的特定数据字段的列表
- 每个字段的数据类型 Knowledge(文本、数字、货币或日期)
- 了解您想要处理的文档结构和布局
- 基本熟悉 Flow Builder(适用于工作流中的后续步骤)
在自动化应用程序中创建文档处理配置,以定义要处理的每种文档类型的说明和输出结构。您可以在创建文档处理配置时上传文档并测试提取过程。
- 在自动化应用程序中,选择文档处理选项卡。
- 单击新建文档处理配置。
-
单击上传文件,并选择示例文档作为创建文档处理配置的基础。
上传完成后,单击完成。
-
单击使用自动提取,根据上传的文档自动添加字段和表格。
这是推荐的方法,因为它扫描示例文档并自动识别和提取所有找到的字段。
- 可选:
如果需要,手动将其他字段和表格添加到配置。
- 在输出面板中,单击字段,然后单击添加字段。
- 提供名称、字段类型(字符串、数字、布尔值)和可选的提示指令,其中包含 Einstein 在提取过程中需要考虑的其他详细信息。
- 单击添加。
- 根据需要继续添加字段。
- 要添加表格,请在“输出”面板中选择“表格”选项卡。
- 单击添加表。
- 提供名称,或者提示说明,然后单击添加。
- 单击表名称,并选择“列”选项卡。
- 单击添加列。
- 提供名称、字段类型,或者提示说明,然后单击添加。
您可以在自动提取后手动添加字段和表格,或者通过单击手动创建而不是使用自动提取来选择完全手动创建配置。 -
单击测试以分析上传的文档并查看提取的表格数据。
测试结果显示每个字段和表格的提取值,以及表示提取准确性的置信度分数。
- 完成创建配置后,为文档处理配置提供名称,然后单击保存。
您的文档处理配置现已保存并准备使用。配置定义了要从文档中提取的所有字段和数据类型。您可以通过检查以下内容来验证配置是否完成:
- 所有必填字段都使用适当的数据类型定义
- 测试分析显示准确的提取结果
- 置信度分数对用例可以接受
此配置现在可以在流中使用“从文档提取数据”操作,您可以创建审查框架来验证提取的数据。
示例
以下是处理发票的字段配置示例:
| 字段名 | API 名称 | 字段类型 | 提示说明 |
|---|---|---|---|
| 公司名称 | 公司名称 | 文本 | 从发票标题中提取供应商或公司名称 |
| 订单编号 | 订单号 | 文本 | 查找发票或订单号,通常在文档顶部附近 |
| 购买者姓名 | PurchaserName | 文本 | 从开单部分提取客户或购买者姓名 |
| 总计 | TotalAmount | 币种 | 查找到期总金额,通常在发票底部 |
| 税 | TaxAmount | 币种 | 如果单独列出,提取税额 |
此示例显示了如何构建常见发票数据的字段定义。提示说明帮助 Einstein 了解在文档中查找每条信息的位置。
在您定义要从文档中提取哪些数据后,设置文档提取和路由到人工审核。请参阅设置文档提取和路由到人工审核。
本文章是否解决您的问题?
请与我们共享您的想法,以便我们进行改进!

