詳細情報:
大規模言語モデルの制限
プロンプトビルダーなどの組み込み機能について、複数のプロバイダーでサポートされている大規模言語モデル(LLM)の制限を理解します。各モデルの制限には、1 分あたりの要求数とトークン制限が含まれます。
レートの制限
本番組織の多くのモデルでは、組織あたり 1,000 LLM 生成要求 (RPM) というデフォルトの処理数制限があります。ただし、モデルの使用状況とモデルプロバイダーの使用可能な容量によっては、RPM 制限がモデルによって異なる可能性があります。個々のモデルの組織あたりの RPM 制限については、「Salesforce が管理するモデルの制限」セクションを参照してください。
Sandbox の場合、デフォルトの処理数制限は組織あたり 1 分あたり 500 生成要求です。
Salesforce が管理するモデルの制限
次の表に、プロンプトビルダーなどの組み込み機能で使用できる Salesforce 管理モデルの制限事項を示します。
| モデルプロバイダー | モデルファミリー | 1 分あたりの最大要求数 (RPM) | Maximum Tokens Per Minute (TPM)1 | 最大入力トークン数 | 最大出力トークン |
|---|---|---|---|---|---|
| Bedrock (Amazon) | Nova Lite | 500 | 300万 | 300,000 | 5000 |
| Bedrock (Amazon) | Nova Pro | 500 | 300万 | 300,000 | 5000 |
| 岩盤 (人類学) | Claude Haiku 4.5 | 250 | 300万 | 200000 | 8,192 |
| 岩盤 (人類学) | クロード・オプス 4.5 | 300 | 100 万件 | 200000 | 8,192 |
| 岩盤 (人類学) | クロード・ソネット 4 | 100 | 300万 | 200000 | 8,192 |
| 岩盤 (人類学) | Claude Sonnet 4.5 | 500 | 300万 | 200000 | 8,192 |
| 岩盤 (人類学) | Claude Sonnet 4.6 | 500 | 300万 | 200000 | 8,192 |
| Bedrock (NVIDIA) | Nemotron 3 Nano 30B (ベータ) | 1000 | 500 万 | 256,000 | 8,192 |
| OpenAI と Azure OpenAI | GPT-4o (GPT 4 オムニ) | 1000 | 500 万 | 128,000 | 16,384 |
| OpenAI | GPT-4o Mini | 1000 | 500 万 | 128,000 | 16,384 |
| OpenAI と Azure OpenAI | GPT-4o-mini (GPT 4 Omni Mini) | 1000 | 500 万 | 128,000 | 16,384 |
| OpenAI と Azure OpenAI | GPT-4.1 | 500 | 200 万 | 128,000 | 32,768 |
| OpenAI と Azure OpenAI | GPT-4.1 Mini | 500 | 200 万 | 128,000 | 32,768 |
| OpenAI と Azure OpenAI | GPT-5 | 500 | 200 万 | 272,000 | 128,000 |
| OpenAI と Azure OpenAI | GPT-5 Mini | 500 | 200 万 | 272,000 | 128,000 |
| OpenAI と Azure OpenAI | GPT 5.1 | 300 | 200 万 | 272,000 | 128,000 |
| OpenAI と Azure OpenAI | GPT 5.2 | 300 | 200 万 | 272,000 | 128,000 |
| OpenAI と Azure OpenAI | GPT 5.4 (ベータ) | 250 | 200 万 | 1,050,000 | 128,000 |
| OpenAI と Azure OpenAI | O3 | 500 | 200 万 | 200000 | 100000 |
| OpenAI と Azure OpenAI | O4 ミニ | 500 | 200 万 | 200000 | 100000 |
| Vertex AI (Google) | Gemini 2.5 Flash | 250 | 200 万 | 1,048,576 | 65,536 |
| Vertex AI (Google) | Gemini 2.5 Flash Lite | 250 | 200 万 | 1,048,576 | 65,536 |
| Vertex AI (Google) | Gemini 2.5 Pro | 250 | 100 万件 | 1,048,576 | 65,536 |
| Vertex AI (Google) | Gemini 3 Flash (ベータ) | 100 | 200 万 | 1,048,576 | 65,536 |
| Vertex AI (Google) | Gemini 3 Pro (ベータ) | 50 | 100 万件 | 1,048,576 | 65,536 |
| Vertex AI (Google) | Gemini 3.1 Flash Lite (ベータ) | 100 | 200 万 | 1,048,576 | 65,536 |
| Vertex AI (Google) | Gemini 3.1 Pro (ベータ) | 50 | 100 万件 | 1,048,576 | 65,536 |
1Maximum Tokens Per Minute(TPM)は、入力トークンと出力トークンの合計に対して測定されます。
データマスキングトークンの制限
Einstein Trust Layer でデータ マスキングが有効になっている場合、現在、すべてのモデルのコンテキスト サイズは 65,536 トークンに制限されています。データ マスキングを無効にしてフル コンテキスト ウィンドウを使用するには、「Set up Einstein Trust Layer」を参照してください。

