10/20


規分布と中心極限定理 (教科書44ページ)


 この授業ではこれまで、さまざまな方法を用いて、標本から得た統計結果から母集団を推測する作業を行ってきました。その場合、「標本を多く集めれば集めるほど、より母集団に近い、確かな推測ができる」との前提にわたしたちは立っていました。
この前提を支える根拠のひとつとなるのが、「中心極限定理」です。

 今回から数回にわたって、この中心極限定理について少し詳しく学んでいきますが、その前に、中心極限定理を学ぶにあたって知っておく必要がある「
正規分布」についてふれておきましょう。


■□正規分布とは


 正規分布は、最も一般的な
確率分布のひとつです。
 確率分布とは、「起こりやすさ」を、その面積の合計が「1」になるようなグラフで記述したものです。大きく分けて「離散型」と「連続型」の2種類にわけられます。

 離散型の確率分布として、たとえば次のようなサイコロの目の出方を表したグラフがあります。




  上の棒グラフのひとつひとつの面積は約0.167、つまり「1/6」で、グラフ全体の面積の合計は「1」になります。

 そして、連続型の確率分布の代表が、「正規分布」です。




 正規分布は、上のような「中心に対して左右対称の、釣り鐘型」をしています。やはり、全体の面積(ピンクの部分)は「1」になります。(右半分が0.5、左半分が0.5です)
 分散の大小によって、曲線の形が高くとがっているか、低くなだらかかが決まります。




 よって正規分布は、平均(=中心の位置)と分散(通常はその平方根である標準偏差=曲線のふくらみ方)の2つの要素がわかれば、決まります

★正規分布では、面積はxがその範囲の値(下の図だとaからbまで)をとる確率をあらわします。






■正規分布の特徴

 正規分布は次のような特徴を持ちます。




 平均をμ、標準偏差をσとすると、μから±σまでの範囲に約68%が含まれ、μから±1.96×σまでの範囲に約95%が含まれます。

 そして、正規分布の曲線は、であらわされます。この曲線を積分することで、面積(確率)を求めることができます。
(↑この授業では、特にこの数式を正確に覚える必要はないと思います。先生もサラッと仰っただけでした)


★また、下のように平均μ=0、標準偏差σ=1のとき(つまり、「標準得点」をとったとき)の正規分布を、とくに「
標準正規分布」と呼びます。




★確率分布には、正規分布のほかにT分布やF分布、χ2(カイ2乗)分布などがあります。



■□中心極限定理とは

 中心極限定理とは統計のもっとも基礎となる定理の一つで、冒頭で述べたとおり、「
標本を多く集めれば集めるほど、より母集団に近い、確かな推測ができる」ことの根拠となる定理です。

 もっと具体的に見ていきましょう。中心極限定理の定義を、教科書46ページから引用すると、





 「平均μ標準偏差σの母集団から十分大きい標本数nの標本を抽出して平均mを求める。同じ標本数の標本を幾つも抽出し、それぞれの標本平均をデータとして集めると、母集団の分布とは関係なくそのデータは、平均μ標準偏差がの正規分布に近づく。これを中心極限定理という」



とあります。このことを図で示すと、標本の平均は次のような正規分布になります。



 平均μと、標準偏差の分子σは母集団と同じ値なので、あとは標本の個数nしだいで、母集団の分布の形とどう違うかが決まってくることになります。図をみると、nが多いほど標準偏差=ばらつきは小さく(幅が狭く背の高い形)、nが小さいほど標準偏差=ばらつきの大きい(低くなだらかな形)正規分布になることがわかります。

 つまり、「標本数nが多い場合ほど標準偏差が小さくなり、標本の平均は母集団の平均の近くに多く集まるようになる」ことをあらわしています。このことは、
標本のデータの分布が母集団の分布に近く、その標本がより信頼できるものであることを意味しています。

 下の図は、サイコロを転がした時の目の平均値について、標本を「10個」とった場合と「100個」とった場合をイメージしたものです。





 この図からも、「標本数を多くした時のほうが、標本の平均は母集団の平均のより近くに集まる(それゆえ、より母集団を忠実に表わす)」ことが読み取れますね。

 nが仮に無限大であれば、標準偏差は限りなく0に近くなり(分布は平均値上の垂直線状になる)、標本の平均は母集団の平均とほぼ一致する=標本は母集団とほぼ一致する・・・ということになるわけです。


 このことを、「中心極限定理」と呼びます。(ただし、
標本数nが十分大きいという条件がつきます)



■□Excelで、中心極限定理をたしかめてみよう!

 さて、ここからはExcelを使って、中心極限定理で言われていることが本当にそうなのか、じっさいに各自で確かめてみましょう!

手順は次の通りです。



  1.サイコロの目をたくさん出してみて(数千個くらい)、母集団をつくる
 2.そこから、「少ない標本数の標本」と、「多い標本数の標本」を抽出する 
 3.それぞれの標本について平均や分布を調べ、比較する



  それではExcelを立ちあげましょう。


■母集団をつくる




 サイコロの目のような乱数を生じさせるのには、「RANDBETWEEN関数」を使います。引数には、数値の範囲(最小、最大)を記入します。この場合は1〜6なので、下のようにA1セルに「=RANDBETWEEN(1,6)」と書きます。



 Enterを押すと、ここでは3と出ました。(もちろん、乱数なのでその時によってバラバラの数字が出ます)
 これを何千回と繰り返したいので、今のセルの右下部分をドラッグして、コピーします。
 まずは、下へ100行までコピーしてみましょう。すると下のように、サイコロの目が100回分振られた結果が作られます。






  100行までできたら、それをさらに右へコピーします。上のT列でちょうどサイコロ2000回分(100行×20列)になりますが、授業ではさらにZ列までコピーしました(=サイコロ2300回分)。
 これで母集団が完成したわけですが、ひとつ注意があります。RANDBETWEEN関数は、数式バーでEnterを押したときやファイルを開いたときなどに、そのつどまた新しい乱数を出してしまうので、この先作業をしていく過程で数値が変わってしまう可能性があります。
 そこで、今ここで出した値のみを継続して使うため、値だけを別のシートに貼り付けてそちらで作業することにします。




 A1セル〜Z100セルを選択し、コピーします。(A1セルを選択し、「Shiftを押したまま、Endキー、右or下を順に押す」と、一気に選択でき便利です)
 コピーをしたら、Sheet2のA1セルで右クリックし、「形式を選択して貼り付け」、「値」を選んでOK。




 これでSheet1の値だけがSheet2にコピーされました。下のように、Sheet2のセルの中には「RANDBETWEEN関数」ではなく、数値しか入っていないことがわかります。



 ここからは貼り付けたSheet2の方で作業を進めましょう。まず、全体を見やすくするために列の幅を調節します。一列ずつ調節するのは手間なので、A〜Zの列を選択し、下のように列の境目でダブルクリックすると、全列まとめて調節できます。



幅が狭まり、見やすくなりました。



 次に、まず母集団の平均標準偏差を求めます。下のように右隣にそれぞれの値を関数で求めてください。平均にはおなじみのAVERAGE関数、標準偏差はSTDEV関数を使います。





 次に、度数分布表と棒グラフで母集団を表してみてください。
 まず右の空いている列(どこでもかまいません)に、度数分布表のデータ区間となる1〜6までの数字を入力します。




 「データ」タブから「データ分析」をクリックし、「ヒストグラム」を選択して、OK。(まぎらわしいですが、度数分布表はこの「ヒストグラム」から作れます。)



 「入力範囲」にはA1〜Z100の母集団を選択し、(先ほど同様「Shiftを押しながら、Endキー、右or下」を使うと楽です)、「データ区間」には先ほど作った1〜6の数字のセルを選び、「出力先」には適当な空いている場所(ここではAA4にしました)のセルをクリックして選びます。



 すると、下のように度数分布表が出力されました。



 「次の級」の部分は必要ないので「合計」に書き直し、オートSUMで合計を計算します。(2600になるはずですね)



 次に、この母集団の頻度を棒グラフで表してみましょう。母集団・頻度の列を選択して、棒グラフを挿入します。
(グラフの作り方は、もう大丈夫でしょうか?)




 授業では、グラフタイトルを「母集団の分布」としました。凡例は削除し、軸の最小値は0にしましょう(「軸の書式設定」から)。グラフの幅も適当に調節します。また下図のように、上のセルを黄色でハイライトしておきます。



 私の場合、母集団のグラフはこのようになりました。
みなさんも、ややばらつきは見られても、2600回転がしてどの目もだいたい400回前半あたりで並んでいる感じになったでしょうか。


■標本数3個の標本

 さて、ここからは、母集団から「標本数の小さな標本」と「標本数の大きな標本」をとって、それらを比べてみる作業に移ります。
まずは標本数の少ないほうの例として、「標本数3個の標本」を抽出し、調べてみましょう。

 A〜Z列のうち、任意の3列を、右の空いている列にコピーしてください。(ここではD〜Fの3列をコピーしました。)




 さらに、その右に平均を求め、全行コピーします。



 今出した標本数3個の標本の平均の、平均標準偏差を求めます。求め方は、先ほどの母集団のときと同じです。(AVERAGE関数、STDEV関数)
 先ほどの母集団のグラフの下あたりに書いておきましょう。



(もちろん、値は必ずしも上と同じになるわけではありません。)

 この「標本数3個の標本」も、表とグラフで表してみましょう。
 先ほどと同じように「データ分析」、「ヒストグラム」を選び、「データ範囲」は3個の標本の平均100個、「区間」は先に書いた1〜6、出力先はあいている適当なセルを選びます。




 「頻度」は上のように書き換え、「次の級」はまた「合計」に直して計算しておきましょう。重要なセルは黄色でハイライトしておきます。

 さて、このデータをもとにヒストグラムを作ります。グラフの作り方は先ほどの母集団の時と同様ですが(凡例は消します)、今度は棒グラフの「データ系列の書式設定」で「要素の間隔」をゼロにし、ヒストグラムの形にしてみましょう。




★授業では、上のように3.5(母集団の平均)の位置に赤い直線を入れました。(Shiftキーを押しながら引くと、簡単に垂直線が引けます。)



  直線は「挿入」タブの「図形」から引くことができます。色も「書式」タブなどから自由に選べます。

 ここまでできたら、「中心極限定理」という名前で、Excelファイルを各自MyDocsやUSBメモリなどに保存しておきましょう。







 作業の途中ですが、今週はここまででおしまいです。来週は、「大きな標本数の標本」を作って比較してみたいと思います。





 参考:標準得点とは?

 標準得点(「Zスコア」とも呼びます)は、集団の中で個々の値の相対的な位置を表すために用いられる基準値のことで、
平均値が0、標準偏差が1になるように変換(正規化)した値です。
具体的な点数や数値を、「‐1」や「+4」などのような相対的な位置であらわすので、異なる単位のデータ、異なる満点のテストの点数同士の比較などにも使えます。ちなみに、皆さんよくご存じの50を中心とする偏差値は、この標準得点(Zスコア)を見やすく手を加えたものです。


 下は、例題です。簡単なのでやってみてください。








標準得点と偏差値がどのようなものか、感覚がつかめたでしょうか?