Post hoc分析/片側検定と両側検定

たとえば某日、二年生の実習として、出席者6名が20回ずつ、奇数が出ることを期待して、計120回投げる、簡単なサイコロ投げ実験を行った。奇数の出る回数の期待値は120の半分で60回であるのに対し、実験の結果は72回だった。

これは120回のベルヌイ試行で「1」が72回出たことになる。もっとも普及している(だからといってもっとも使いやすいわけではない・・・)表計算ソフト、EXCELを使うと、Z値は、=(72-60)/SQRT(120*(1/2)*(1/2))で、約2.19となる。さらに、このZ値から標準正規分布を使って有意確率を近似計算すると、=1-NORMSDIST(Z)で、その値はおよそp=0.014であり、5%水準なら有意、1%水準なら有意ではないと結論できる。

このことから、このような偏りは(5%水準で切った場合)偶然に生じたとは考えにくいという結論が導かれる。もっとも、このような統計的処理だけでは、その偏りが、実験参加者の「念力 PK」によるものなのか、サイコロに構造上の偏りがあったのか、サイコロを投げるときについつい奇数が出るような投げ方をしてしまったのか、等々の要因を決定することはできない。統計的な手法自体ではその偏りのメカニズムを決定することはできない。

実験参加者一人ひとりを見ると、もっとも得点が高かったのはYさんで、20回のサイコロを振って、13回奇数を出したが、これを計算すると、Z=1.34, p=0.090で、5%水準では有意にならない。(10%水準で有意傾向にある、という言い方をすることもあるが。)ただし、Yさんは最初のうちは続けて奇数を出し、後のほうでだんだん奇数が出なくなった。たとえば前半の10回と後半の10回を分けてみると、奇数は前半で8回、後半で5回出ている。後半は期待値と同じだが、前半はZ=1.90, p=0.003で、5%水準で有意になる。

しかし、20回分を分析して有意な結果が出なかったからといって、最初のほうはいい結果だったのにと、後から(post hoc)分析の枠組みを前半と後半に分けて、前半は有意な結果だったと都合のいいように議論を進めるのはルール違反である。

ただ、このように試行回数を重ねるごとにヒット率が落ちていく現象を下降現象ないし減衰効果といい、そこに人間的な疲労を読み取る解釈もある。これは、サイコロ自体に偏りがあったり、仕掛けがあったりするという仮説に対する弱い反証になる。

さて、この実験を行った6名のうち、逆にもっとも得点が低かったのはHさんで、20回のうち9回しか奇数が出なかった。この場合、奇数が偶数より偶然多く出てしまう確率を求めるのが目的なので、そもそも有意確率自体を計算する意味があまりないのだが、あえて計算すると、Z=-0.45と、Z値が負の値になり、p=0.672と、p値は0.5よりも大きくなってしまう。

さて、ここからは架空の話だが、Hさんが頑張って2000回サイコロを投げたとする。そして、900回しか奇数が出なかったとする。ヒット率は0.45で変わりないが、この場合、Z=-4.47で、p=0.999996となり、ますます奇妙な数字になる。

しかし、2000回もサイコロを振って、900回しか奇数が出ないということは、逆に考えると非常に希な出来事であり、つまり、1100回も偶数が出たことには意味があるのではないか、と考えることもできる。このように仮説を逆にして考えると、Z=(1100-1000)/SQRT(2000*(1/2)*(1/2))=4.47...となり、p=0.000004という、高度に有意な結果となる。望んだ方向とは逆の結果が出ても、それも一種の逆転した精神の働きのあらわれとみて、それをサイ・ミッシング psi missing と呼ぶこともある。

しかし、実験が終わってから、失敗した実験結果を見て、後から(post hoc)都合のいいように仮説を変えるのは、やはり一種のインチキである。もし、出したいと思った方向と逆の偏りがあらわれても、それにも意味を見いだすというのであれば、実験を行う前に

「偶然だとは言えないほど「1」が「0」よりも多く出たかどうか」
(片側検定 one tailed test)

という強い仮説ではなく

「偶然だとは言えないほど「1」が「0」よりも多く出たか、あるいは、偶然だとは言えないほど「0」が「1」よりも多く出たかどうか」
(両側検定 two tailed test)

という弱い仮説を立ててから実験をすればよい。ただしこの場合、仮説が「二倍」ゆるくなるので、有意確率も、片側検定で計算したもの(片側確率)の二倍にする必要がある(両側確率)。たとえば、「0」が1100回、「1」が900回出た場合の両側確率は、いずれも同じ、=(1-NORMSDIST(4.47))*2で、0.000008となる。 もちろん、これでも高度に有意な結果であることには変わりない。






(2006/2549-06-13 蛭川 立)