ABテスト(3)_リストの精度

前回、ABテストのリストの分割方法に触れました。

blog.hatena.ne.jp

今回は、リストの分割方法でどこまで精度を求めるかについて書きます。

どこまでの精度を求めるか


AとBの比だけで見ると数%の誤差は一見大きいように見えます。しかし、

これは「特定プロダクトの、特定の契約状況の、特定の業種」という細分化されたブロックでの話です。

リスト全体に対する比率でAとBの差(総計に対する比率のAB差)を調べると、単純ランダム化でも1%程度の誤差でした。

では、この1%はメール配信の場合は無視できる大きさでしょうか?

例えば、特定の細分化されたブロックの顧客は、クリック率が100%だったとします。(ないとは思いますが・・)

「有料顧客、かつ、最上位プラン、かつ、メールの内容に大きく関係する業界」というブロックの場合は確かにクリック率は高いです。

このとき、上記の顧客が、BよりAの方に1%多く振り分けられていたとします。

すると、クリック率はAのリストの方が1%高くなります。(他のリスト振り分け方が同じ場合)

このような場合は、単純ランダム化でのリスト分割はNGでしょう。

まとめます。

以下の場合であれば、単純ランダム化でも問題ないでしょう。

Y > a * X

  • Y : [ABのクリック率の差(目標想定値)]

  • a : [リスト全体に対する、細分化ブロックの比率のAB差]

  • X : [細分化ブロックのクリック率(想定値)]

  • 例)2% > [1% * 100%]

ただし、上記の式でも分かるように、変数が想定値なんですよね。やってみて想定と違うこともありますし、その方が多いでしょう。 それに、特定の細分化ブロックについても、想定外の条件の組合せの場合は想定のしようがありません。

現実的な例だと以下の値になりそうです。

例)0.5% > [1% * 5%]

・今回のランダム化について調べていたところ、医療統計のサイトが複数ヒットしました。 医療のような、厳密な差が求められるような状況であれば、リストの分割で精度を追求するのも納得です。

次回は必要なデータ数の確認方法について触れます。

以上です。