統計学が最強の学問である
『統計学が最強の学問である』 西内啓著
この本、本屋にたくさん並んでいたので目にした方も多いだろう。統計学について語られている。統計を学んでおくと、仕事ではとっても役に立つよ、ということが書かれているが、その通りだと思う。
Webであっても、どんな業界であってもデータを取ってそれを分析するということはよくある。何か行われた施策をきちんと分析し結果を数値で示す。PDCAサイクルのCの部分だ。では、その分析結果をどう使うのか、どんな分析結果ならよいのか。
・何かの要因が変化すれば利益は向上するのか
・そうした変化を起こすような行動は実際に可能なのか
・変化を起こす行動が可能だとしてそのコストは利益を上回るのか
これら3つに答えられる分析結果が意味のあるものである。もし、これらに答えられないものであれば、そうなんだ、ふーん、という程度でおしまいの結果である。ビジネス上価値のあるものは上記3つに答えられるものであり、そうでなければそもそも分析するだけの価値がない。
Web業界でよく行われる施策の一つにAB分析がある。AB分析をすることによって、どちらが優れているのかを判別し、優れているほうを採用する。だが、この本ではさらにその一歩先のことも述べている。AB分析をした際の結論を出すとき、どの程度であれば有意差があり、こちらのほうがよい、と正しく結論づけられるか。ここまできちっと考えるのが統計学だ。
誤差なのか、そうでない意味のある偏りなのか、それを確かめる手法にカイ二乗検定がある。これによってp値という「 実際には何の差もないのに誤差や偶然によってたまたま差が生じる確率」が求められる。慣例的にはこのp値が5%以下であれば、この結果は偶然得られたとは考えにくい、と判断できる。
では、具体例を見てみよう。あるECサイトとパターンAとパターンBのデザインで商品を購買するかどうかをテストした。それぞれ10万ユーザが訪れ、以下のような結果になった。
パターンA : 9,500人が商品を購入(9.5%)
パターンB : 9,600人が商品を購入(9.6%)
さて、それぞれ10万人が訪れて購入率として0.1%の差が出た。だから、パターンBのうほうがよい!と言えるのか。ここで上記のp値を求めてみると、44.7%という値が出てくる。すなわち、実際には何の差もない状況でもデータの誤差によって10万人中100人またはそれ以上の差が生じる確率は44.7%である、ということである。5%以下であるべきp値が44.7%なのだから、このデータからは意味がある差はわからなかった、と結論づけられる。もし、9.5%と9.6%という差があるのであれば、それぞれ100万サンプルあると有意差があると言える事になる。
こんなことをきちんと計算して、統計的に有意差があるかどうかを結論として言えるかどうか、それがビジネスに与えるインパクトは大きい。誤った結果を用いるのではなく、きちんと正しい結果を用いることでより意味のある施策を打って行くことができる。
本書の後半はかなり統計の専門的な難しめの内容になってくるが、前半は比較的誰にでも読みやすい内容。前半だけでも読む価値は非常に高い。