ABテスト(3)_リストの精度

前回、ABテストのリストの分割方法に触れました。

今回は、リストの分割方法でどこまで精度を求めるかについて書きます。

どこまでの精度を求めるか

AとBの比だけで見ると数％の誤差は一見大きいように見えます。しかし、

これは「特定プロダクトの、特定の契約状況の、特定の業種」という細分化されたブロックでの話です。

リスト全体に対する比率でAとBの差(総計に対する比率のAB差)を調べると、単純ランダム化でも1％程度の誤差でした。

では、この1％はメール配信の場合は無視できる大きさでしょうか？

例えば、特定の細分化されたブロックの顧客は、クリック率が100％だったとします。（ないとは思いますが・・）

「有料顧客、かつ、最上位プラン、かつ、メールの内容に大きく関係する業界」というブロックの場合は確かにクリック率は高いです。

このとき、上記の顧客が、BよりAの方に1％多く振り分けられていたとします。

すると、クリック率はAのリストの方が1％高くなります。（他のリスト振り分け方が同じ場合）

このような場合は、単純ランダム化でのリスト分割はNGでしょう。

まとめます。

以下の場合であれば、単純ランダム化でも問題ないでしょう。

Y　＞　a　＊　X

ただし、上記の式でも分かるように、変数が想定値なんですよね。やってみて想定と違うこともありますし、その方が多いでしょう。それに、特定の細分化ブロックについても、想定外の条件の組合せの場合は想定のしようがありません。

現実的な例だと以下の値になりそうです。

例）0.5% > [1% * 5%]

・今回のランダム化について調べていたところ、医療統計のサイトが複数ヒットしました。医療のような、厳密な差が求められるような状況であれば、リストの分割で精度を追求するのも納得です。

次回は必要なデータ数の確認方法について触れます。

以上です。