2010/01/22 02:15 更新
2009年10月14日分 授業日誌
概要:
中心極限定理(母集団の標準偏差σが既知のとき)。
t 分布(母集団の標準偏差σが未知のとき)。

★ 中心極限定理(母集団の標準偏差σが既知のとき)
9月30日10月7日の授業では,母集団からn 個(n =2, 4, 10, 30)のデータを無作為に取り出して標本とし,
  • 標本の平均値の平均値と,もともとの母集団の平均値を比べると,それらはとても近い値になる。
  • n を大きくしていくと標本の平均値の平均値の分散(標準偏差)がだんだん小さくなっていく。
ということを実験で確認しました。
以上のような知見は,教科書pp.46-47の説明のように,あるいは次の図1のように「中心極限定理」として一般化されます:


図1.中心極限定理

と,図1みたいなことを言われても,これ,話がうますぎてにわかには信じがたいんですけど…。
たしかに9月30日10月7日の授業でやった実験は,中心極限定理を状況証拠的に裏付けるような結果が得られましたが,でも「なんか話が出来すぎじゃない?」という気がしませんか。

しかし,この出来すぎの定理はどうも本当に成り立つらしいんですね。
(数学寄りの)確率・統計の教科書には,まず100%書いてある有名な定理です。
この定理を発見した人は偉いです。
納豆を「これは食える」と最初に判断した人と同じくらい偉いです。

なぜこのような強い定理が成り立つのかの数学的な証明は(難しいから)省略です(とりあえず定理の意味だけ理解して覚えて下さい)。
中心極限定理が成り立つためには,「標本のサンプル数n が十分に大きいならば」ということが条件になっています。

ただし,(ここが曖昧な感じがする所なのですが)「n がいくつ以上ならば十分に大きいと言える」という基準のようなものは,中心極限定理は教えてくれません。
ただ,n が大きくなればなるほど,標本の平均値ともとの母集団の平均値との差が小さくなっていく,ということですから,実際のアンケートなんかでは,とにかくn (回答数)が大きくなるようになんとかがんばるんですね。
ともあれ,この中心極限定理は,回答数が30人のアンケート結果よりも回答数が5,000人のアンケート結果の方がなんだか信頼性が高いような気がする,ということを数学的に肯定的にサポートしてくれるのものです。

あと,中心極限定理では,母集団の分布は(平均値μと標準偏差σが計算できさえすれば)何でもよいことになっています。
すばらしいですね。
ただし,数学的には,平均値も標準偏差も計算できない妙な分布があって,母集団がそういう妙な分布を持つと仮定した場合は中心極限定理を適用できないのですが,社会科学分野での統計処理の場面ではそんな平均値も標準偏差も計算できないような妙な分布を持つ母集団は考えないので,実用上は「母集団の分布は何でもよい」と思っていて大丈夫です。
図2は中心極限定理の使い方の例です。
今,母集団の平均値μは不明,ただし標準偏差σは24とわかっているとします(母集団の平均値μがわからないのに標準偏差σがわかっているというのは非常に不自然な状況ですが,説明のための例ということで…)。
この母集団から36個のデータを無作為に抽出して標本としたところ,標本の平均値m 1が90,標準偏差s 1が24だったとします。
図1では標本を何セットも取り出しましたが,社会科学で用いるアンケート等では通常1セットの標本しか得られないので,図2では標本を1セットだけにしています。
この標本のサンプル数n =36を十分に大きい値とみなせば,中心極限定理より,標本の平均値の平均値m は90,標本の平均値の標準偏差s は4となります(図2のピンクの矢印よりも上の部分)。
さらにここでもう一度中心極限定理より「母集団の平均値μは,m - 1.96×sm + 1.96×s の区間に95%の確率で入る」という推定ができます(図2のピンクの矢印より下の部分)。
係数の1.96が面倒だったら,ざっくり2として計算してもいいでしょう(6月17日の正規分布の説明ではざっくり2で説明しました)。
1.96を2にするのは,円周率3.1415…を「およそ3」とするのよりは誤差が少ないですね。
m - 1.96×sm + 1.96×s の区間を「μの95%信頼区間」と言います。


図2.中心極限定理によって母集団の平均値μを推定

図2の一番下のところの82.16~97.64が今の例でのμの95%信頼区間になります。
というふうに,標本から母集団の平均値を推定するときに中心極限定理が使えます。

t 分布(母集団の標準偏差σが未知のとき)
上の例のように,中心極限定理を使って母集団の平均値μを推定する場合には,母集団の標準偏差σが必要なのですが,母集団の標準偏差σがあらかじめわかっていることは実際にはめったにありません。
母集団の標準偏差σが不明であっても平均値μを推定したい場合はどうするかというと,図3のようにt 値という統計量の分布(t 分布)を考えます。
図1の中心極限定理の時とは違って,t 分布では「母集団の分布は正規分布に近い」という仮定が必要なので注意して下さい:


図3.t 値とt 分布

で,図3中に出てくる「t 分布」というものですが,これは正規分布によく似た確率分布で,図4のようなグラフで表現されます。
赤線が標準正規分布,緑線が自由度1のt 分布,橙線が自由度2のt 分布,青線が自由度5のt 分布です:


図4.標準正規分布と自由度1,2,5のt 分布

t 分布と正規分布グラフの形を比べると,正規分布は真中の山が尖って両端の裾が薄く,逆にt 分布は山が低く裾が厚いです。
また,t 分布は自由度が大きくなるにつれ,形が標準正規分布に近くなっていきます。
自由度は(標本のサンプル数マイナス1)という値です。
図4中の「t = 2.571」と「-t = -2.571」は,自由度5のt 分布においてt i が95%の確率で-2.571~2.571の区間に入る,ということを表す値です。
2.571という数値は,自由度n - 1と信頼区間(今の例だと95%の0.95)によって決まる値で,たとえば「Javaによる統計学」の「自由度nのt分布の上側α点」で自由度を「5」,αを「0.025」(真ん中に95%信頼区間を置くので左右の裾がそれぞれ2.5%になるため0.025)を与えて計算させると「t = 2.571」という値が得られます。
この「-t = -2.571」~「t = 2.571」のような区間と母集団の平均値μには以下のような関係があります:


図5.t 値と母集団の平均値μの関係

図3,図5の数式中に母集団の標準偏差σが出てこない(代わりに標本の標準偏差s を使う)のがt 分布のうれしいところです。
例として図2の母集団と標本(サンプル数n = 36,平均値m = 90,標準偏差s = 24)を考えます。
ただし,(図2では母集団の分布は任意として差し支えなかったのですが)ここでは母集団は正規分布に近い分布を持っていると仮定します。
標本のサンプル数が36なので自由度を「35」,95%信頼区間の意味でαを「0.025」として「自由度nのt分布の上側α点」でt 値を計算すると「t = 2.0301」という値が得られます。
ここで図5の関係から母集団の平均値μの95%信頼区間を求めると


図6.t 分布による母集団の平均値μの95%信頼区間

となるので,μの95%信頼区間は81.88~98.12となります。
中心極限定理から求めたμの95%信頼区間は82.16~97.64でしたが(図2の一番下),図6でt 分布から求めた95%信頼区間は81.88~98.12となりました。
t 分布から求めた区間の方が少し広くなっているのは「t 分布のグラフの方が裾が広いのでその分信頼区間が広がってしまう」と考えればいいと思います。
あるいは,情報量的な観点から,「t 分布の方では母集団の標準偏差σという重要な情報を使えないので,その分だけ推定の精度が落ちて,信頼区間を狭く絞りきれないのだ」と考えてもいいです。
http://lecture.in.net/nino/2009/以下のコンテンツは,予告無く変更されることがあります。
予めご了承下さい。