詳細情報:
B2C Commerce の A/B テスト結果の理解
B2C Commerce の A/B テストから結論を導き出したら、テストグループの体験の一部またはすべてをサイトにデプロイできます。
通常、最高の結果をもたらしたテストグループの体験をデプロイしますが、複数のグループの体験をデプロイしたい場合もあります。このような体験は、キャンペーンを作成するか、または既存のキャンペーンに追加することにより、手動でデプロイします。ただし、結論を導き出す前に、テストの実行期間や終了日時、およびテストの実施時間が十分であることを判断する方法などを決定する必要があります。理解すべき重要なコンセプトは、信頼水準 と統計的有意性 です。
統計的有意性
テストが統計的有意性を達成する時点は、複数のパラメーターによって異なります。通常、被験者の類似性が高いほど、テストのメトリクスが多くなります。また、トラフィックが少ないほど、統計的有意性に達する時間は長くなります。では、統計的有意性とはどういう意味でしょうか?
統計学では、偶然に発生する可能性が低い場合に、その結果は統計的有意性 があるとみなされます。たとえば、500 人の顧客を含む A/B テストを実行するとします。このテストで、9 月の平均注文金額 は、暗い色のバナーよりも秋色のバナーのほうが 30% 高かったとします。結果は統計的に有意かもしれませんが、この差異は重要でしょうか。有意性のテストでは、エフェクトサイズの統計を使用して、おおよそのサイズ、つまり実際的な差異の重要性を算出しなくてはなりません。事象が偶然に発生する可能性が低いことを受け入れるのに必要な証拠の量は、信頼水準として知られています。
A/B テストのページでは、対照群とテストグループのメトリクスと値を比較できます。B2C Commerce は、これらの違いがランダムなものではなく、サイト体験の変化によるものである可能性を示す、信頼水準を計算します。信頼水準が 90% に達したら、統計的に有意な結果であるとみなされます。
バナーの色の例では、B2C Commerce が算出した信頼水準が 90% に達したら、テスト結果は統計的に有意だとみなすことができます。マーチャンダイジングチームは、暗い色のバナーよりも良い結果につながることに自信をもって、秋色のバナーを 9 月に使うことができます。
テストの長さ
テストの長さは、毎日の平均訪問者数、テストに含まれる訪問者数の割合、およびその他の外的要素によって異なります。一般的に、テストが統計的有意性に達するか、または統計的有意性がないと判明するまでテストを実施します。ただし、B2C Commerce A/B テストを実施できる期間は 90 日間であることに注意してください。
A/B テストは、ユーザーが無効にしない限り、終了日に自動的に終了します。A/B テストのキーメトリクスが 95% の信頼水準に達した場合、A/B テストで設定した受信者に Eメールが送信されます。テストは Eメール送信後も続行されるため、送信後に信頼水準が 95% 未満に下がる可能性もあります。信頼水準が 95% から 94% に変化し、その後に 95% に戻った場合、Eメールは、重複した送信を防ぐため一度だけ送信されます。信頼水準が 95% に到達しない場合でも、セグメント体験はデプロイできます。たとえば、90%、85% などの信頼水準でもデプロイが可能です。

