Loading
Salesforce から送信されるメールは、承認済ドメインからのみとなります続きを読む

2024 年 2 月 7 日に Einstein ボットで発生した機能中断に関するご報告

公開日: Mar 4, 2024
説明

根本原因分析

この記事および本障害に関して公開されるその他の記事には、ソーシャルメディアを介したものを含め、将来の見通しに関する記述が含まれている場合があり、その達成または完了にはリスク、不確実性、および仮定が含まれます。そのようなリスクまたは不確実性が顕在化した場合、または仮定のいずれかが不確実であると判明した場合、 Salesforce の将来の見通しに関する記述によって表明または暗示されている結果と実際に提供される結果が大きく異なる可能性があります。

本障害により、お客様、およびお客様の業務にご不便、ご迷惑をおかけしたことを深くお詫び申し上げます。Salesforce は、信頼を第一に考えており、高い水準でのシステム可用性、パフォーマンス、安全性をお客様へご提供することを最優先に行動しています。Salesforce は、透明性が信頼の基であると考えています。その考えに基づき、先日発生した複数の Salesforce サービス中断に関して、判明している内容をここに掲載します。弊社での調査は継続中であり、お客様には今後も更新情報を提供いたします。

当該記事に含まれる情報は、弊社からの本障害に関する概括的な情報を提供することを目的とし、また、公開時点の情報に基づいた内容であるため、今後変更される可能性があります。当該記事は弊社の機密情報を含み、意図された受信者の利益のためにのみ使用されることを目的としています。弊社と意図された受信者との間での明示的な合意がある場合を除き、複製、再配布、または第三者への開示は許可されません。 Salesforce Technology Service Delivery Root Cause Analysis に記載のある障害時間情報には、復旧作業および経過観察期間、障害調査にかかった時間を含みます。通常、障害に関する調査作業や復旧作業および経過観察作業にはより多くの時間が費やされるため、障害時間情報は実際のサービス利用に影響があった時間よりも長い時間表記となります。

 

概要:

2024 年 2 月 7 日 6 時 (日本時間/以下すべて 24 時間表記) 弊社技術部門は、Einstein ボットおよび ELU (Einstein Language Understanding) の機能障害を確認しました。ELU を導入しているお客様は、顧客とのやり取りができませんでした。

初期調査の結果、技術部門は、失敗したチャットリクエストが人のエージェントに転送されていることを確認しました。

予防策として、技術部門はこの事象の発生に関連する最近の変更のロールバックを実施しました。その後、技術部門はパフォーマンスの問題を軽減するため、追加の容量を準備しました。

技術部門は、この事象の原因を切り分けるため、アプリケーション層での設定変更を含む複数の作業、およびヘルスチェックの検証を実施し、お客様の業務が通常の状態に復旧しました。復旧作業によりパフォーマンスが向上し、2024 年 2 月 7 日 13 時 40 分頃にお客様への影響が解消したことを確認しました。

暫定調査では、サービスへのリクエストが過剰に増加したことにより、Inference Graph Execution Services (IGES) およびその他下位の予測サービスにおいて、AI 予測を生成する際にスレッドが枯渇したため、AI プラットフォーム予測がタイムアウトしていたことが判明しました。

技術部門は現在、技術的誘因、根本原因、および再発防止策を確認するため、本障害の完全な調査を行っています。

本事象が Salesforce サービスに及ぼした影響について :  

影響が及んでいた期間、ELU を導入していたお客様は、Einstein ボットで断続的な不具合が発生し、顧客とのやり取りができませんでした。

具体的には、チャットリクエストが失敗し、人のエージェントに転送され、エージェントのキャパシティの問題につながる可能性がありました。

技術概要:

検知および初期の影響

2024 年 2 月 7 日 7 時 21 分、技術部門は、ELU の問題が報告された複数のセルで、機能障害の調査を開始しました。

同日 7 時 43 分、技術部門は、Einstein ボットに断続的な不具合が発生し、チャットが人のエージェントにエスカレーションされたことを確認しました。影響は、IA2、IA4、IA5、IA6、IA7 および prod1、prod5、prod9 データセンターの、ファーストパーティ (1P) と Hyperforce のインスタンスに及びました。

同日 8 時 17 分、技術部門は、Subject Matter Experts (SMEs) と連携し、SME の提案に基づき、パフォーマンスの問題を軽減するため、容量を追加する対応を開始しました。

同日 9 時 42 分、さらなる軽減策として、技術部門は最近適用した変更のロールバックを開始しました。技術部門は、この変更の適用が本障害の時系列と関連性があるのではないかと推測しました。

障害復旧対応

2024 年 2 月 7 日 10 時 14 分から 13 時の間、技術部門は回避策を検討し、Einstein 予測サービス層の容量の追加、Einstein Platform のリリースに関する最近の変更適用や関連するヘルスチェックの検証を含む、複数の軽減策を実施しました。しかしながら、最近の変更適用のロールバックが完了した後も、影響を軽減できませんでした。

同日 13 時 40 分、技術部門は、予測サービスを再起動し、アプリケーション層で設定を変更しました。これらの複数の修復作業の結果、Einstein ボット機能は復旧し、正常な状態に戻りました。

同日 14 時 18 分、一定期間の監視の後、技術部門は障害の解消を宣言しました。

根本原因分析:

弊社技術部門による障害後の調査および分析の結果、サービスへのリクエストが過剰に増加したことにより、Inference Graph Execution Services (IGES) およびその他下位の予測サービスにおいて、AI 予測を生成する際にスレッドが枯渇したため、AI プラットフォーム予測がタイムアウトしていたことが判明しました。

ある下位のサービスでは、ボットに無関係の二つのアプリケーションからのトラフィック量が増加したことにより、一部の GPU クラスターへのリクエストで大幅な遅延が発生しました。増加したトラフィックの一部は、アプリケーションに伴う自然な増加でしたが、一部はアプリケーション内のエラーおよびその再試行によるものでした。前回の更新以降、技術部門は同様の環境でこの問題を再現しました。GPU の容量不足により、一部の GPU クラスターへのリクエストが過剰に増加し、待ち時間が長くなった結果、スレッドの枯渇が発生したことを確認しました。

スレッドの枯渇は、ELU コールを含む予測サービスのすべてのコールの遅延を助長し、これらのコールの一部がタイムアウトになりました。その結果、ELU を導入しているお客様は、Einstein ボットで断続的な不具合が発生し、ある一定の期間、顧客とのやり取りができませんでした。

技術部門は、リクエスト数の増加が自動スケーリングの許容量を上回っていたため、予測サービスの自動スケーリングではスレッドの枯渇を緩和できなかったことも確認しました。自動スケーリングが失敗した際、技術部門は手動で予測サービスおよび IGES サービスを拡張し、アプリケーション層で設定の変更を適用し、また、予測サービスを再起動することでお客様の業務が通常の状態に復旧しました。

次のステップ

お客様が Salesforce に期待するパフォーマンスレベルの維持に努め、弊社技術部門では継続的な改善および以下の再発防止策を実施しております。

  • 完了:
    • Einstein Platform における、最近の適用変更をロールバックしました。
    • 予測サービスの再起動により、接続エラーを解消しました。
    • トラフィック量が増加した二つのアプリケーションで使用されるモデルの GPU クラスター数を増やしました。
    • 大幅な遅延のあった予測サービスアプリケーションの一つから、再試行の回数とタイムアウト値を引き下げました。
    • 同様の環境で問題を再現し、スレッド枯渇の誘因を確認しました。
    • アプリケーション層で、影響を受けたすべての予測サービスに対する再試行、およびタイムアウトの回数を引き下げました。
    • リクエスト率の増加を考慮して、自動スケーリング設定の最大許容量を分析し、必要に応じた設定に変更しました。
  • 進行中:
    • 無関係なアプリケーションによるボットへの影響を軽減することを目的に、多様な事例に対応できるよう、予測サービス用の複数に分散されたクラスターを展開することを検討しています (3 月末に完了予定)。
    • 詳細なレート制限およびスレッドプールのリソース割り当ての強化についてオプションを調査することで、予測サービスの耐障害性を向上します (3 月末に完了予定)。
    • 本障害の再発を防止するために、ネットワーク層およびアプリケーション層における追加のヘルスチェックを検証し準備しています (3 月末に完了予定)。
    • スレッドプールの枯渇に対する追加のアラートと監視を調査し準備しています (3 月末に完了予定)。

本障害について、お客様へ多大な影響をおかけしたことを深くお詫びいたします。弊社では、障害発生時のダウンタイムを最小限に抑えるよう全力で取り組んでおります。お客様に可能な限り最高のサービスを提供するために、引き続き、ツールや業務プロセスならびにアーキテクチャの改善を図ってまいります。

ナレッジ記事番号

000979033

 
読み込み中
Salesforce Help | Article