ABテスト(3)_リストの精度
前回、ABテストのリストの分割方法に触れました。
今回は、リストの分割方法でどこまで精度を求めるかについて書きます。
どこまでの精度を求めるか
AとBの比だけで見ると数%の誤差は一見大きいように見えます。しかし、
これは「特定プロダクトの、特定の契約状況の、特定の業種」という細分化されたブロックでの話です。
リスト全体に対する比率でAとBの差(総計に対する比率のAB差)を調べると、単純ランダム化でも1%程度の誤差でした。
では、この1%はメール配信の場合は無視できる大きさでしょうか?
例えば、特定の細分化されたブロックの顧客は、クリック率が100%だったとします。(ないとは思いますが・・)
「有料顧客、かつ、最上位プラン、かつ、メールの内容に大きく関係する業界」というブロックの場合は確かにクリック率は高いです。
このとき、上記の顧客が、BよりAの方に1%多く振り分けられていたとします。
すると、クリック率はAのリストの方が1%高くなります。(他のリスト振り分け方が同じ場合)
このような場合は、単純ランダム化でのリスト分割はNGでしょう。
まとめます。
以下の場合であれば、単純ランダム化でも問題ないでしょう。
Y > a * X
Y : [ABのクリック率の差(目標想定値)]
a : [リスト全体に対する、細分化ブロックの比率のAB差]
X : [細分化ブロックのクリック率(想定値)]
例)2% > [1% * 100%]
ただし、上記の式でも分かるように、変数が想定値なんですよね。やってみて想定と違うこともありますし、その方が多いでしょう。 それに、特定の細分化ブロックについても、想定外の条件の組合せの場合は想定のしようがありません。
現実的な例だと以下の値になりそうです。
例)0.5% > [1% * 5%]
・今回のランダム化について調べていたところ、医療統計のサイトが複数ヒットしました。 医療のような、厳密な差が求められるような状況であれば、リストの分割で精度を追求するのも納得です。
次回は必要なデータ数の確認方法について触れます。
以上です。