チャンク戦略

詳細情報:

チャンク戦略

Data 360 では、いくつかのチャンク戦略がサポートされています。Data 360 では、使用しているコンテンツタイプに基づいて最適なチャンク戦略が自動的に選択されます。

たとえば、最も関連性の高いコンテキストと意味を提供する項目、それらの項目を分割する方法、取得した結果がEinstein Gen AI、自動化、分析アプリケーションでどのように使用されるかを検討します。たとえば、パス抽出戦略を使用して Knowledge 記事 DMO のカスタムテキストフィールドを分割し、Knowledge オブジェクト間で検索するときに意味的に類似する結果を簡単に返すことができます。

セクション対応チャンク

セクション対応チャンクでは、タイトル要素とヘッダー要素を使用してドキュメントをチャンクします。セクションタイトルまたはヘッダー要素の下にあるすべてのテキストは、Data 360 で新しいセクションタイトルまたはヘッダー要素が検出されるまで、まとめてチャンクされます。これにより、文書の構造に基づいてコンテンツを一貫したセクションに分割できます。

セクションが任意に分割されることはありません。チャンクは常に自然なコンテンツの境界を尊重し、読みやすさとコンテキストを維持します。短いパラグラフやリスト項目がスタンドアロンセクションとして誤って認識されると、チャンクが過度に小さくなります。これを回避するには、検索インデックスを作成するときに次の設定を使用します。

Max Token (最大トークン): 隣接する小さなセクションをより大きなチャンクに結合することで、一貫性を犠牲にすることなくチャンクサイズを最適化します。「How the Max Token Setting Affects Chunking (最大トークン設定によるチャンクへの影響)」を参照してください。
重複トークン: 1 つのセクションから複数のチャンクが作成された場合にのみ使用されます。各チャンクの末尾から次のチャンクの先頭までに追加するトークン数を指定します。これにより、連続するチャンク間でコンテキストの重複が発生し、スムーズな移行と検索や取得などのタスクのパフォーマンスが向上します。

組み合わせたコンテンツが設定されたトークン制限を超えない場合は、複数の段落を 1 つのチャンクにグループ化できます。

トークンの制限に達すると、チャンクロジックによって文や段落の途中で分割されず、区切りがなくなります。代わりに、段落の末尾まで拡張され、チャンク全体でセマンティックと構造の整合性が維持されます。

たとえば、このテキストはタイトルと後続のセクションヘッダーに基づいてセクションに分割されます。

結果のチャンクデータモデルオブジェクトの例には、次のレコードが含まれます。

チャンクシーケンス番号	チャンク	DaTAsource オブジェクトのチャンク	データソース
1	`Retrievers A retriever returns relevant data from the vector database to augment a prompt. By augmenting prompts with accurate, current, and pertinent information, retrievers improve the value and relevance of LLM responses for users. . .`	`DataSourceObject__c`	`DataSource__c`
2	`Default and Custom Retrievers When a search index is created in Data Cloud, a default retriever is created automatically. You can't customize a default retriever. However, in Einstein Studio, you can create and customize retrievers for search indexes.`	`DataSourceObject__c`	`DataSource__c`
3	`Dynamic Retrievers Some standard templates contain dynamic retrievers. A dynamic retriever is a placeholder for a retriever specified at runtime depending on the needs of the prompt template. To test a dynamic retriever, enter the retriever’s API name, which you can find in Einstein Studio.`	`DataSourceObject__c`	`DataSource__c`

Data 360 の高度なビルダーで検索インデックス設定を作成する場合、セクション対応チャンクが HTML ファイルと PDF ファイルのデフォルトのチャンク戦略になります。

メモ HTML ドキュメントのセクション対応戦略を使用する場合、チャンクの前に HTML タグが自動的にコンテンツから削除されます。

セマンティックベースのパッセージ抽出

セマンティックベースの通路の抽出では、HTML タグに固有のセマンティックな意味を使用して文書を通路に分割します。これらの HTML 要素はチャンクの論理境界とみなされます。

ヘッダーレベル 1 ～ 6 の<h1-h6>
テーマ別休憩<hr>
太字 <b>– タグ付きテキストが単独行にある場合や、font_weightが 700 以上に設定されている段落やfont_weightが bold に設定されている段落のテキストで使用されている場合に使用します。
強い<strong> — タグ付きテキストが 1 行にある場合、またはfont_weightが 700 以上に設定されている段落やfont_weightが太字に設定されている段落のテキストで使用されている場合に使用します。
段落<p> — タグ付きテキストが単独の行にある場合に使用します。
改行<br> — 現在のチャンクがトークン制限を超えた場合に使用されます。

メモ HTML ドキュメントでパッセージ抽出戦略を使用すると、チャンクする前から HTML タグが自動的に削除されます。これは検索インデックススビルダーのデフォルト設定ですが、必要に応じて無効にできます。

たとえば、このテキストにはいくつかの HTML 要素が含まれています。

セマンティックベースのパッセージ抽出を示すアノテーションが付加されたテキストドキュメント。

HTML では次のようになります。

<h1>Enable Custom Time Zones</h1>
<p>Time zone support lets you view time-specific data...</p>

<h4>REQUIRED EDITIONS</h4>
<p>Available in Salesforce Classic and Lightning Experience</p>
<p>...</p>

<h2>Enable Time Zone Support</h2>
<ul>...</ul>

結果のチャンクデータモデルオブジェクトの例には、次のレコードが含まれます。

ChunkSequenceNumber	チャンク	データソースオブジェクト	データソース
`1`	`Enable Custom Time Zones Time zone support lets you view time-specific data....`	`DataSourceObject__c`	`DataSource__c`
`2`	`REQUIRED EDITIONS Available in Salesforce Classic...`	`DataSourceObject__c`	`DataSource__c`
`3`	`Enable Time Zone Support From Setup, enter Analytics...`	`DataSourceObject__c`	`DataSource__c`
`4`	`Sync Connected Objects and Refresh Datasets Run a full Data Sync of your connected objects...`	`DataSourceObject__c`	`DataSource__c`

2 つのヘッダータグの間にコンテンツがない場合、それらのタグと後続のコンテンツは 2 つではなく 1 つのチャンクで表示されます。ヘッダー間にコンテンツがない場合、Data 360 は 1 つのチャンクに収まるだけのヘッダータグを組み合わせます。

デフォルトでは、Data 360 では最初にセマンティックベースの方法が使用されますが、結果の通路が長すぎる場合は、ウィンドウベースの通路抽出を使用してさらに処理されます。ウィンドウベースの抽出では、<div>や<p>などのブロックレベル要素、または改行<br>で区切られた未加工テキストを使用して、ドキュメントを通路に分割します。段落に HTML が含まれない場合、集計は文レベルで行われます。

会話ベースのチャンク

会話ベースのチャンクでは、音声ファイルと動画ファイルから文字起こしされたデータをチャンクに分割します。通常、音声が変更されると分割されます。

文字起こし中に複数の話者が存在する場合、各チャンクは個々の話者の話を表します。

トランスクリプトの最初の数行を次に示します。

"Hello? Hi Alex, it's Sam from Bullseye. I didn't hear from you yesterday, so I wanted to check in. Hi Sam, sorry about that."

結果のチャンクデータモデルオブジェクトの一部に次のレコードが含まれます。

ChunkSequenceNumber	チャンク	開始タイムスタンプ	終了タイムスタンプ	スピーカー
`1`	`Hello?`	`1.051`	`1.253`	`SPEAKER_00`
`2`	`Hi Alex, it 's Sam from Bullseye. I didn't hear from you yesterday, so I wanted to check in.`	`3.203`	`8.418`	`SPEAKER_01`
`3`	`Hi Sam, sorry about that.`	`10.263`	`11.546`	`SPEAKER_00`

項目チャンクの先頭へ

DMO または UDMO から生成されたチャンクのコンテキストを提供するためにメタデータを追加する必要がある場合、チャンクに項目を追加します。たとえば、ナレッジ記事の Description 項目は、プロンプトベースの取得に最適なチャンクサイズを超える可能性があります。チャンクの先頭に Title 項目を追加することで、プロンプト結果により多くのコンテキストを提供できます。

次の表に、便利なメタデータ項目の例を示します。

タイプ	メタデータ項目の例
DMO (Knowledge記事)	タイトル製品名
UDMO (外部 Blob ストアコネクタ)	ファイルパス
UDMO (Web クローラーまたはサイトマップコネクタ)	Labels (ラベル) タイトル URL

ベクトル検索またはハイブリッド検索の検索インデックスの高度な設定で、DMO または UDMO からチャンクの先頭に追加する項目を設定します。

チャンクの最大トークン制限は 512 であるため、先頭に追加する項目の値は必ずその制限内に収まるようにします。先頭に追加される項目の長さが 512 トークンを超える場合、Data 360 は先頭に追加される項目をスキップします。

この文章は Salesforce 機械翻訳システムを使用して翻訳されました。詳細はこちらをご参照ください。

チャンク戦略

セクション対応チャンク

セマンティックベースのパッセージ抽出

会話ベースのチャンク

項目チャンクの先頭へ

関連項目:

General Information

Required Cookies

Functional Cookies

Advertising Cookies

General Information

Required Cookies

Functional Cookies

Advertising Cookies

Cookie List

この文章は Salesforce 機械翻訳システムを使用して翻訳されました。詳細はこちらをご参照ください。英語に切り替える今はしません

製品エリア

機能の影響

エディション

環境

チャンク戦略

セクション対応チャンク

セマンティックベースのパッセージ抽出

会話ベースのチャンク

項目チャンクの先頭へ

関連項目:

この文章は Salesforce 機械翻訳システムを使用して翻訳されました。詳細はこちらをご参照ください。