2010/01/16 16:45 更新
2009年6月17日分 授業日誌
概要:
分散・標準偏差・四分位点・箱ひげ図の復習
正規分布
標準得点(Zスコア)と偏差値
実習:Excelの練習(平均値・ヒストグラム)

★ 量的データ(連続データ)のまとめ方(分散・標準偏差・四分位点・箱ひげ図の復習)
前回,1種類の量的データ(連続データ)のまとめ方として,分散・標準偏差・四分位点について学びました。
授業は前回の復習だったので,分散と標準偏差についてはこちらを,四分位点についてはこちらをご覧下さい。

一応,分散と標準偏差の定義を再掲しておくと


図1.分散・偏差平方和・標準偏差の定義(6月10日の図5再掲)

です。
分散と標準偏差は,まず平均値を求めた上で計算されるものなので,ほとんど常に平均値と一緒に使うことになります。
一方,四分位点の求め方は

  1. データを昇順(または降順)に並べ替える。
  2. データ数が奇数個(2n+1個)の場合,
    1. データ全体の中央値を求め,それを第2四分位点(50パーセンタイル)にする。
    2. データを,中央値よりも小さい方n個,中央値1個,中央値よりも大きいn個に分割する。⇒ 4.へ
  3. データ数が偶数個(2n個)の場合,
    1. データ全体の中央値を求め,それを第2四分位点(50パーセンタイル)にする。
    2. データを,中央値よりも小さい方n個,中央値よりも大きいn個に分割する。⇒ 4.へ
  4. 小さい方のn個のデータの中央値を求め,それを第1四分位点(25パーセンタイル)にする。
  5. 大きい方のn個のデータの中央値を求め,それを第3四分位点(75パーセンタイル)にする。
図2.四分位点の求め方(6月10日の図6再掲)

です。
四分位点を説明する模式図は以下のようになります:


図3.四分位点の模式図

四分位点は,平均値よりもむしろ中央値と一緒に使うことになります。
箱ひげ図は


図4.箱ひげ図(4月22日の図4再掲)

のようなものです(2008年度5月28日の授業日誌に,もうちょっと詳しい図があります)。
図3と図4の,黄と緑の部分がそれぞれ対応しています。
図3の赤が図4で上に出るひげに対応しますが,赤の中に他の値よりも著しく大きい値(はずれ値)が存在する場合は,ひげはほどほどの長さで止めて,はずれ値をひげの上方に○とか×とかで表示します。
同様に,図3の青が図4で下に出るひげに対応していて,青の中に他の値よりも著しく小さい値(はずれ値)が存在する場合は,はずれ値をひげの下方に○とか×とかで描きます。
ひげをどこまで伸ばすか(どこからはずれ値として扱うか)は,そのつど決めればいいのですが,たとえば教科書p.36には,箱の上下に箱の長さの1.5倍以上離れている値をはずれ値とする,とあります(図4はテキトーに描いたものなので,教科書のその基準には合っていません)。
箱ひげ図の良い点は,複数の箱ひげを並べて比較できる点です。
ヒストグラムと比べて必ずしも箱ひげ図は情報の量が多いとは言えませんが,複数のヒストグラムを並べて描くよりも複数の箱ひげを並べて描いた方がデータの特徴や傾向を比較しやすい場合があります。

★ 正規分布
教科書p.44あたりの話です。
同じ量的データに対して,図5のようにヒストグラムの区間幅を狭めていくと,ヒストグラムの山のゴツゴツがとれて,だんだん形が滑らかになっていきます:


図5.ヒストグラムの区間幅を狭めると形が滑らかになる

正規分布は,図5のような左右対象なデータ分布に対してヒストグラムの区間幅を極限まで狭めていった場合の,一種の理想形とも言うべき形で,図6のようなものです(画像の粗さのせいで釣鐘の左右の裾が途中で横軸にくっついていますが,厳密には裾は横軸にはくっつかずに左右にずっと伸びて行きます):


図6.正規分布

正規分布の曲線は平均値と標準偏差のみによって定まります。
平均値が大きく(小さく)なると,正規分布の曲線は右に(左に)平行移動します。
標準偏差が大きく(小さく)なると,山の背が低く平べったく(高く鋭く)なります。
ここで注意して欲しいのは,正規分布はあくまでもデータ分布の一種の理想形であって,実際のデータがきれいな正規分布に従って散らばることはほとんど無いということです。
あくまでも理想形です。
ただし,たとえばテストの点数とか身長とかのデータを,正規分布に従って散らばるものと便宜的に考えて分析をすることはよくあります。
テストの点数にしろ,身長にしろ,実際のデータはどうやったってきれいな正規分布にはなりませんが,「でもまあ正規分布に近いよねー」ぐらいの勢いでやっつけることがままあります。
そこら辺の話題はもうちょっと後の授業で出てくると思いますが,今は難しいことを考えずに,正規分布のグラフをざっと見てみることにしましょう。
まず図7のように,平均値のところできれいに左右対称に分割されるという性質があります:


図7.正規分布 性質その1

次に図8のように,(平均値)±(標準偏差)の領域に,全データの約68%が入ります:


図8.正規分布 性質その2

さらに図9のように,(平均値)±(標準偏差×2)の領域に,全データの約95%が入ります:


図9.正規分布 性質その3

図9より明らかですが,(平均値)±(標準偏差×2)の外側の領域には,それぞれ全データの約2.5%ずつが入ります(図10):


図10.正規分布 性質その3

とりあえず今はこの程度の認識でOKでしょう。

★ 標準得点(Zスコア)と偏差値
標準得点(Zスコア)は,集団の中で個々の値の相対的な位置を表すために用いられる基準値のことで,平均値が0,標準偏差が1になるように変換(正規化)した値です。
平均値が0,標準偏差が1になるように変換してしまうので,たとえば満点が異なるテストの点数の比較なんかに使えます。
標準得点(Zスコア)と,ついでに中学・高校の時にお世話になった(?)偏差値の定義は以下の通りです(図11):


図11.標準得点(Zスコア)と偏差値の定義

2008年度6月4日の授業日誌にも解説があるのでどうぞ。
授業中に先生がホワイトボードに書いた例題です:

★ 実習:Excelの練習(平均値・ヒストグラム)
ここからExcelを使った実習になります。
授業中に配布された表をExcelに入力して,いくつかの統計量を求めたり,グラフを描いたりします。
まずExcelを起動して,図12のようにA1セルに「社会の点」と書き込んで下さい:


図12.A1セルに「社会の点」

「〜点」まで書いたら,ここでAltキーを押しながらEnterキーを押して下さい。
すると図13のようにA1セルの中で改行されます:


図13.Altキーを押しながらEnterキーを押す

で,そのまま続けて「x」と入力して下さい(図14):


図14.「x」を入力

「x」の後で,EnterキーでA1のセルの入力を確定させて下さい。
続けて,B1セルに「人数」改行して「f」と入力したいのですが…(図15):


図15.「人数」改行して「f」と入力したい

うっかり「人数」の直後でEnterキーを押してしまった場合には,図16のように「fx」欄でもAltとEnterキーの同時押しが効きます:


図16.「fx」欄でもAltとEnterキーの同時押しが効く

「f」を入力しているところです(図17):


図17.「f」を入力しているところ

「f」の直後にEnterキーでB1セルの入力を確定すると図18のようになります:


図18.B1セルの入力確定

プリントに従って,C1セル,D1セルも入力します(図19):


図19.C1セル,D1セルも入力

A1〜D1セルをドラッグして選択して,赤丸のボタンで,セル内での文字列の左右の位置を中央寄せにしましょう(図20):


図20.文字列を中央寄せに

中央寄せにするとこんな感じ(図21):


図21.中央寄せになった

図22のようにA2セルに0,A3セルに10を入力して,A2・A3セルをドラッグして選択状態にして,A3の右下隅をつまんで下に引っ張ると:


図22.下に引っ張ると

あら便利。
図23のように,自動的に10刻みで縦に値が入ります(この機能をフィルハンドルと言います)。
今回は10刻みで数字が入りましたが,引っ張り作業の前に置く最初の数セルの値によって,自動で入る値が違って来ます:


図23.フィルハンドルで超便利…

B列の値はプリントを見ながら手で入力して下さい(図24):


図24.B列は手入力で

ここでA13セルに「合計」と書いておいて,図25のように,[数式タブ]→B2〜B12セルをドラッグして範囲選択→[オートSUM]ボタン,と進むと…:


図25.オートSUM 手順

B13セルにB2〜B12セルの値の和が入ります(図26):


図26.オートSUM 結果

ここでC2セルに「=」と書きます(図27)。
Enterキーは押しません:


図27.C2セルに「=」を入力

次にA2セルをクリックします(図28):


図28.A2セルをクリック

さらにC2セルに続けて「*」を入力します(図29)。
Enterキーは押しません:


図29.C2セルに続けて「*」を入力

今度はB2セルをクリックして,最後にEnterキーを押します(図30):


図30.B2セルをクリック

すると,C2セルに,(A2セル)×(B2セルの値)が計算されて入るのですが,今,この値は0ですね。
ここでも図22と同様に,C2セルの右下隅を下に引っ張って下さい(図31):


図31.C2セルの右下隅を下に引っ張る

フィルハンドルで,同様の計算が自動的にできてしまいます(図32):


図32.また超便利…

ちなみに,C7セルをクリックしてみると図33のようになっています:


図33.C7セルの内容

ここでも図25と同様の操作で,オートSUMを使ってC2〜C12の和を求めます(図34):


図34.2度目のオートSUM

うまくいくとこんな感じ(図35):


図35.2度目のオートSUM 結果

今度は平均点を求めるので,図36のように入力して下さい(手順は図27〜30と同様):


図36.平均点の計算

平均点が計算できたら,セルの背景に色を付けましょう(図37):


図37.セルの背景色設定

図38まで行ったら,いったんファイルの保存をしましょう。
ファイル名は「成績.xlsx」などにしましょう。

図38.一休み

図38のA列は社会のテストの点数を10点刻みで書いたもの(階級値)です。
B列は各点数(区間)に該当する人の数です(合計で100人)。
C列は(階級値)×(人数)です。
平均点は60点です。
最後に,図38の表からヒストグラムを描きましょう。
図39のように,[挿入]タブ→B1〜B12セルをドラッグして範囲指定→[(グラフの)縦棒]→[2-D縦棒の一番左]を選択して下さい:


図39.グラフ 2-D縦棒

すると図40のような棒グラフが表示されるので,まず赤丸のタイトルを「社会の点」と書き替えて下さい:


図40.タイトルの書き換え

書き換えるとこんな感じ(図41):


図41.タイトル書き換え完了

横軸のラベルが「1 2 3 …」と1刻みで振られているので,これを元データに合うように10刻みに修正します。
グラフの真ん中あたりを右クリックして図42のメニューを出して「データの選択」をクリックして下さい:


図42.データの選択

そうすると図43のようなウィンドウが開くので,赤丸の[編集]ボタンを押して下さい:


図43.「データソースの選択」ウィンドウ

するとさらに図44のような横に長い小さなウィンドウが開きます。
このウィンドウ上で,緑丸の部分を手入力してもいいし,赤い囲みの領域(A2~A12)をドラッグして選択してもいいです。
ヒストグラムの横軸のラベルに,A2~A12の値を使おうという意味です。
指定が終わったら[OK]をクリックして下さい:


図44.軸ラベルの範囲

図44のウィンドウの[OK]をクリックすると図43のウィンドウに戻るので,そこでも[OK]をクリックして下さい。
うまくいくと図45のように横軸のラベルが10刻みになっているはずです。:


図45.横軸のラベルが10刻みに

グラフの右側の凡例は削除します。
図46のように選択しておいてDeleteキーで削除になります:


図46.凡例の削除

ヒストグラムらしく,グラフの棒の幅を太くして棒と棒の隙間がなくなるようにします。
棒の青色の部分を右クリックして図47のメニューを出して[データ系列の書式設定]を選択して下さい:


図47.データ系列の書式設定

すると図48のようなウィンドウが開くので,[系列のオプション]から[要素の間隔]を0%(なし)に設定して下さい。
これがヒストグラムの棒と棒の隙間の設定です:


図48.要素の間隔

ついでに同じウィンドウ上で,[枠線の色]で[線(単色)]を選択し,図48のように棒の枠線(ふち)の色を設定して下さい。
図49では黒を選んでいます。
設定が終わったら右下の[閉じる]をクリックして下さい:


図49.棒の枠線の色

だいたいこんな感じになります(図50):


図50.今日はここまで

最後にもう一度ファイルの保存をしましょう。
ファイル名は「成績.xlsx」などにしましょう。
6月17日の授業はここまででした。
残りはたぶん来週です。
http://lecture.in.net/nino/2009/以下のコンテンツは,予告無く変更されることがあります。
予めご了承下さい。