ある施策の前後2週間で直帰率が60.0%から59.5%になった。訪問者数は10万と12万。直帰率は改善したと言えるか?
アクセス解析をしているとよくありますよね、直帰率やコンバージョン率が変わったけど、この数値は本当に変わったって言っちゃっていいの?誤差じゃない?って判断に迷うこと。そんなときは統計学の有意差検定を使ってみましょう。
比率の差検定ツール
直帰率やコンバージョン率などに差があるかどうかを、Web上で検定できるツールを作ってみました。
使い方
AとBのサンプル数と比率に値を入力して計算ボタンを押すと、検定統計量を計算して検定を行い、比率Aと比率Bに差があると言えるかかどうかを結果に表示します。
例えば施策前後の直帰率の比較を検定する場合は、施策前をA、施策後をBとして、サンプル数に訪問者数、比率に直帰率を入力します。コンバージョンのA/Bテストを検定する場合は、パターンAをA、パターンBをBとして、サンプル数に訪問者数、比率にコンバージョン率を入力します。
有意水準とは、検定に使う確率のパラメータで、この確率が小さいほど差があるかどうかの判定が厳しくなります。通常は5%でいいでしょう。検定統計量とは、入力値からある公式によって計算される値で、この値が棄却域内に入る確率と有意水準を比べて有意差検定します。検定方法は、二群の比率の差の検定で、z分布を使った両側検定をしています。検定方法の統計的な説明については下の囲みを参照してください。
例
「ある施策の前後2週間で直帰率が60.0%から59.5%になった。訪問者数は10万と12万。直帰率は改善したと言えるか?」
冒頭のこの例題を入力してみると次のようになります。
計算すると検定統計量が2.381となり、有意水準5%で「差があると言えます」ので、直帰率が改善したことになります。試しにサンプル数をそれぞれ1/10にしてみると、「差があるとは言えません」という結果が出ます。サンプル数が10万件もあったので0.5%の差でも違いがあると言えたのですね。
まとめ
この有意差検定ツールは、直帰率の他に、コンバージョン率、A/Bテスト、クリック率、新規/リピーター比率、などの様な「あるサンプル数に対して、あり/なしの2択になる事象の比較」の有意差検定に使えます。アクセス解析でこれらの指標を比較するときに使ってみてください。
「差があるとは言えません」という結果が出たときは、本当に差が少なかったか、サンプル数が十分でない可能性もあります。サンプル数が足りないと感じたときは計測期間を延ばすなどしてサンプル数を増やしてみましょう。サンプル数を増やせない場合は、指標を差が明確に出やすい中間指標に変える方法もあります(例えば指標をコンバージョン率から直帰率に変える)。
有意水準を緩めれば「差があると言えます」という結果が出やすくなりますが、それだけ確度が低くなります。有意水準の値は一般的に5%程度にすることが多いのですが、事象の性質に合わせて人間が決めます。逆に言うと有意水準をいじってしまえばどうにでもなってしまいます。数値は嘘をつきませんが人間の解釈次第で結果が変わってしまうところはまさに「薬(くすり)人を殺さず薬師(くすし)人を殺す」といえます。
また、検定によって数値に差があると言えるかどうかは判定できますが、その要因が施策によるものか、それとも他の要素が絡んでいるかまでは分かりません。要因を明確にするには、他の要素をできるだけ排除したり、相関を調べる必要がありますが、それらについてはまた別の機会に。
検定について以下は統計学的な説明ですので、興味のない方は読み飛ばしても構いません。 検定手法 ここでは、事象が無作為抽出で十分なサンプルがあると仮定しています。ノンパラメトリック検定の「対応のないデータの二つの母比率の差の検定」を使い、z分布を使った両側検定をしています。z分布を使った有意差検定では、サンプル数の合計が少ない場合(概ね100以下の場合)や比率が極端に偏っている場合(0%または100%にかなり近い場合)にずれが生じるので、それらの場合はフィッシャーの正確確率検定やG検定を使う方が正確ですが、ここでは簡略化してz検定のみを使っています。 片側検定と両側検定 直帰率が「改善したかどうか」を検定するには、本来は片側検定すべきかもしれませんが、ここでは両側検定しています。検定統計量が片側に寄る事が分かっている場合は片側検定を使うのですが、片側検定と両側検定のどちらにするか判断に迷ったときは、両側検定の方が帰無仮説が棄却されにくくなるので、基本的には両側検定を選ぶのが無難です。 |
関連しているかもしれない記事
- None Found
トラックバック: Adsenseの収益を増やしたかったらテストしよう。ただし、結果を検証すること
2014年7月8日 1:36 AM
横から失礼します。すずきさんのいう以下の点について
> ログの量が多いのでランダムサンプリングを行ったということでなければ、
> アクセス解析のほとんどの指標において統計的検定は必要ないと思います。
一般的にアクセスログの量は膨大です。
サンプルサイズが膨大な場合、何でも「有意な結果」として出てしまうため、数十万単位のサンプルがあるようなアクセス解析については、これらの検定はあまり意味がないですし、それだけサンプルが集まれば、逆に言えば検定をするまでもなく「有意」であると考えることもできる、ということが言いたいんじゃないでしょうかね??
2014年7月8日 3:12 PM
はるもぐさんはじめまして。
なるほど、そのような考え方もありますね。
ご意見ありがとうございます。
2017年4月24日 3:25 PM
はじめまして。
統計の解説部分についていくつか質問がありますので、お手すきの際にご回答ください。
「z分布」といえば平均0, 分散1の正規分布を指しますが、これを検定に用いるには母集団の分散が既知である必要があるかと存じます。
本ページのアプリケーションでは、その点をどのように解決しているのでしょうか?
また、母分散が未知のケースでは、ウェルチのt検定などを用いるのがより適切に思われるのですが如何でしょうか?
返信は、メールにてお知らせ頂けますと助かります。
また、度々問題に上がっていた「検定不要論」ですが、
サイトのデータ全体については十分なサンプルサイズがあっても、男/女や年齢といったセグメントを切ればサンプルサイズは減少していきます。
サンプルサイズはセグメント数について指数的に小さくなるため、有意差の検出は困難になっていきます。そのようなユースケースを考えれば、こういった議論をするのは有益かと存じます。
2017年4月24日 3:29 PM
あ、うっかり返信の形で投稿してしまいました。失礼しました。
2017年5月2日 5:43 PM
たきめしさん、はじめまして。
母平均の検定ですと、おっしゃるとおり分散が必要になりますね。
これは母比率の検定ですので、ノンパラメトリック検定になり、母集団の分布によらないので分散は不要になります。
サンプル数は、母比率の検定でしたら30以上あればz検定で問題ないようです。
2017年5月2日 6:40 PM
返信ありがとうございます!
私の記述に誤りがありました。Welchのt検定は母平均の差の検定なので関係がありませんでした。
以下の書籍をみると、確かにz分布に従う統計量の紹介がありましたので、納得しました。
> 道工勇,「テキスト 理系の数学9 確率と統計」,数学書房,2012,pp. 353-355.
今後の更新も楽しみにしております!
2014年5月13日 10:18 AM
村上様、はじめまして。統計初心者です。
事例であげてくださっている、検定統計量が2.381となっていますが、この数値はどういったことを示すのでしょうか。検定統計量がどういった数値になると、有意差がなくなる(逆もしかり)をわかりやすくご教示いただけますでしょうか。
2014年5月13日 10:49 PM
たなかさん、はじめまして。
検定統計量は、有意差があるかどうかを判定するために、サンプル数や比率からある式で計算した数値です。
検定統計量がある閾値より大きいかどうかで有意差を判定しますが、その閾値は、有意水準が何%かによって決まります。
検定統計量の計算式は複雑なのでここには書きませんが、有意水準によって検定統計量の閾値が決まることを知っていればいいかと思います。
トラックバック: A/Bテスト(多変量テスト)のススメ | 東京で働くグロースハッカーのブログ
トラックバック: 【NEWSまとめ】2012年版アドワーズ新機能10選,リスティング広告運用の「本質」は「確率のマネジメント」等々 | 日刊リス男TIMES~リスティング広告のまとめNEWS~
2012年12月18日 9:05 AM
以前、アクセス解析に携わっていたものです。
ログの量が多いのでランダムサンプリングを行ったということでなければ、アクセス解析のほとんどの指標において統計的検定は必要ないと思います。
直帰率の0.5%の差が大きいのか小さいのかを判断したいということかもしれませんが、そのような役割は統計的検定にありません。
2012年12月18日 12:44 PM
すずきさんご教示ありがとうございます。もっと勉強してみます。
2012年12月18日 5:14 PM
すずきさん、少し調べてみましたが、なぜアクセス解析に統計的検定が必要ないのか、なぜそのような役割が統計的検定にないのか分かりませんでした。
よろしかったら教えて頂けますか?
2012年12月19日 1:07 PM
すずきさん、統計的検定が必要ないとおっしゃるのは、母集団からサンプリングしてないからということでしょうか?
それが理由でしたら、分析対象のキャンペーンやコンテンツ掲載が続く期間のデータを母集団として、現在までの期間のデータをサンプリングしているので、統計的検定は意味があると思いますが、いかがでしょうか?
例えば、分析対象の掲載が今後3ヶ月続くとして、施策してから現在までの2週間分を取り出して施策前と比較した場合、3ヶ月分の母集団から2週間分をサンプリングしているので、統計的検定は意味があると思います。もちろん時系列的な要因をできるだけ排除してランダムサンプリングと見なせる前提は必要ですが。
ウェブ分析はサイトを改善するためにするものですから、事が終わってから分析するのは意味がなく、アクセスの全数を解析することはあまりしません。改善のPDCAを回すために期間の途中で現在までの取れるデータを取り出して解析する事が多いです。また、GoogleアナリティクスではA/Bテストなどのようにデータの一部をサンプリングしているものがあります。そういう意味では統計的検定は必要だと思います。それとも別の理由があるのでしょうか?
サンプリングだけの問題でしたら、上記のことから、アクセス解析で統計的検定をするのは意味があると思います。