詳細情報:
コンテンツチャンクの強化されたインデックス付け
Data Cloud の非構造化データからベクトル検索インデックスまたはハイブリッド検索インデックスを作成する場合、コンテンツからメタデータを抽出して、生成されたコンテンツ チャンクを強化できます。抽出されたメタデータには、キーワード、エンティティ、トピックの概要、コンテンツによって回答された質問、コンテンツの概要が含まれます。
チャンク強化により、特に先頭項目 (UDMO パスなど) や質問と回答エージェントアクションを使用できない場合に取得精度が大幅に向上します。LLM で生成されたコンテンツは適切なチャンクの識別を改善するのに役立つため、コンテンツチャンクの強化により、集約的なコンテンツの選定に代わるものが得られます。
強化コンテンツ チャンクを使用するには、まずベクトル検索インデックスを作成し、強化コンテンツ チャンクを有効にします。Einstein Studio で、新しいカスタム取得機能を作成します。検索インデックスの入力を求められたら、チャンクの強化オプションを使用して作成されたベクトル検索インデックスを選択します。
Data Cloud でこの機能を使用すると、Flex Credits が消費されます。詳細については、「Billing Considerations for Enriched Index (拡張インデックスの請求に関する考慮事項)」を参照してください。詳細は、アカウントエグゼクティブにお問い合わせください。
強化チャンクの内容
ベクトル検索インデックスまたはハイブリッド検索インデックスで強化コンテンツを有効にすると、Data Cloud で 3 つのチャンクが生成されます。1 つは元のチャンク テキストが含まれるチャンク、1 つはメタデータ テキストが含まれるチャンク、もう 1 つは回答可能な質問が含まれるチャンクです。取得者はこれらのチャンクにアクセスして、RAG および AI エージェントワークフローで使用します。
| チャンク種別 | メタデータ型 | 説明 |
|---|---|---|
| メタデータ | キーワード | コンテンツを一意に識別するキーワードを抽出します。 |
| エンティティ | 次のいずれかを逐次的に特定してリストします。
|
|
| トピック | チャンクで議論されている主要なトピックを抽出します。トピック名に重要なエンティティとキーワードを含めます。 |
|
| タイトル | コンテンツを要約した簡潔で有益なタイトルを生成します。 |
|
| サマリー | 主要なトピックとエンティティが強調されたコンテンツの概要が表示されます。可能な場合は、100 語以上、250 語以下にします。 | |
| 質問 | 質問 | 該当する場合は、テキストチャンクのコンテンツが回答できる詳細な質問の包括的なセットをまとめます。 |
強化されたインデックス付けのデータ処理
拡張インデックスは、Data 360を使用可能なすべての地域でサポートされます。強化されたインデックスのデータは、次の地域の Amazon Bedrock マネージドサービスを介して処理されます。
- us-west-2: 米国西部 (オレゴン)
- us-east-1: 米国東部 (バージニア)
- eu-central-1: ヨーロッパ (フランクフルト)
- eu-central-2 ヨーロッパ (チューリッヒ)
- eu-west-3: ヨーロッパ (パリ)
詳細については、Amazon Bedrock のドキュメントを参照してください。
- 拡張インデックスの請求に関する考慮事項
強化されたインデックス付けは、Data Coud ライセンスで Data 360 を運用している組織の請求に使用されるクレジットの消費に影響します。強化検索インデックスを使用すると、非構造化データを処理し、LLM をコールして強化チャンクを生成します。

