ドキュメントから抽出するデータの定義
ドキュメント処理設定では、ドキュメントからデータを抽出するための構造とルールを定義します。これらの設定を作成することで、検索する情報と抽出されたデータの整理方法を定義します。このステップは、フローでドキュメントを処理したり、レビューワークフローを設定したりする前に不可欠です。
必要なエディション
| 使用可能なインターフェース: Lightning Experience |
| サポートされているエディションを表示する。 |
| この機能を使用するには、MuleSoft for Flow: IDP アドオンが必要です。Professional Edition では、API アクセス アドオンが必要です。購入するには、Salesforce アカウントエグゼクティブにお問い合わせください。 |
| ドキュメント処理機能を使用するには、[設定] で Einstein 生成 AI を有効にし、組織で Data 360 をプロビジョニングして有効にする必要があります。 |
| MuleSoft for Flow: Agentforce で使用する IDP 機能には、Foundations Edition または Agentforce 1 Edition が必要です。これらのエディションを購入するには、Salesforce アカウントエグゼクティブにお問い合わせください。 |
| 必要なユーザー権限 | |
|---|---|
| ドキュメント処理設定を作成、参照、編集、および削除する | ドキュメント処理設定の管理 |
文書から抽出するデータを定義する前に、次のことを確認します。
- 処理する種別のサンプルドキュメント (PDF、画像、またはスキャン済みドキュメント)
- 文書から抽出する特定のデータ項目のリスト
- 各フィールドのデータ型 (テキスト、数値、通貨、日付) の Knowledge
- 処理するドキュメント構造とレイアウトの理解
- Flow Builder の基本的な知識 (ワークフローの次のステップのため)
オートメーションアプリケーションでドキュメント処理設定を作成し、処理するドキュメントの種類ごとに命令と出力構造を定義します。ドキュメントをアップロードし、ドキュメント処理設定の作成時に抽出プロセスをテストできます。
- Automation アプリケーションで、[Document Processing (ドキュメント処理)] タブを選択します。
- [新規ドキュメント処理設定] をクリックします。
-
[ファイルをアップロード] をクリックし、ドキュメント処理設定の作成の基礎として使用するサンプルドキュメントを選択します。
アップロードが完了したら、[完了] をクリックします。
-
[Using Auto Extraction (自動抽出を使用)] をクリックして、アップロードしたドキュメントに基づいて項目とテーブルを自動的に追加します。
これは、サンプルドキュメントをスキャンし、検出されたすべての項目を自動的に識別して抽出する推奨される方法です。
- 省略可能:
必要に応じて、手動で設定に項目とテーブルを追加します。
- [Outputs] パネルで、[Fields] をクリックし、[Add Field] をクリックします。
- [名前]、[項目種別] (文字列、数値、Boolean)、必要に応じて [プロンプトの指示] に、抽出プロセス中に Einstein で考慮する追加の詳細を入力します。
- [追加] をクリックします。
- 必要に応じて、引き続き項目を追加します。
- テーブルを追加するには、[出力] パネルで [テーブル] タブを選択します。
- [テーブルを追加] をクリックします。
- [名前] を入力し、必要に応じて [指示を要求] を選択して、[追加] をクリックします。
- テーブル名をクリックし、[列] タブを選択します。
- [Add Column] をクリックします。
- [Name (名前)]、[Field Type (項目種別)]、[Prompt Instructions (プロンプトの指示)] (省略可能) を入力し、[Add (追加)] をクリックします。
自動抽出後に項目とテーブルを手動で追加することも、自動抽出を使用せずに [Create Manually (手動で作成)] をクリックして設定を完全に手動で作成することもできます。 -
[Test (テスト)] をクリックして、アップロードされたドキュメントを分析し、抽出されたテーブルデータを確認します。
テスト結果には、各項目とテーブルの抽出された値と、抽出の精度を示す信頼性スコアが表示されます。
- 設定の作成が完了したら、ドキュメント処理設定の名前を入力し、[保存] をクリックします。
これでドキュメント処理設定が保存され、すぐに使用できます。この設定では、ドキュメントから抽出するすべての項目とデータ型を定義します。設定が完了していることを確認するには、次の点を確認します。
- すべての必須項目が適切なデータ型で定義されている
- テスト分析で正確な抽出結果が表示される
- 信頼性スコアは使用事例で使用できます。
この設定を [ドキュメントからデータを抽出] アクションでフローで使用できるようになり、抽出したデータを検証するためのレビューフレームワークを作成できます。
例
請求書を処理する項目設定の例を次に示します。
| 項目名 | API 参照名 | 項目の型 | プロンプト命令 |
|---|---|---|---|
| 会社名 | CompanyName | テキスト | 請求書ヘッダーからベンダーまたは会社名を抽出する |
| 注文番号 | OrderNumber | テキスト | 請求書または注文番号 (通常は文書の上部付近) を見つける |
| 購入者名 | PurchaserName | テキスト | 請求セクションから顧客または購入者の名前を抽出する |
| 合計 | TotalAmount | 通貨 | 支払期日の総額 (通常は請求書の下部) を確認する |
| 消費税等 | TaxAmount | 通貨 | 個別にリストされている場合は税額を抽出する |
次に、一般的な請求書データの項目定義を構造化する例を示します。プロンプトの指示は、Einstein がドキュメント内の各情報を検索するための場所を理解するのに役立ちます。
ドキュメントから抽出するデータを定義したら、ドキュメントの抽出と人によるレビューへの転送を設定します。「ドキュメントの抽出と Human Review へのルーティングの設定」を参照してください。
この記事で問題は解決されましたか?
ご意見をお待ちしております。

