前回,1種類の量的データ(連続データ)のまとめ方として,分散・標準偏差・四分位点について学びました。
授業は前回の復習だったので,分散と標準偏差についてはこちらを,四分位点についてはこちらをご覧下さい。
一応,分散と標準偏差の定義を再掲しておくと
図1.分散・偏差平方和・標準偏差の定義(6月10日の図5再掲)
です。
分散と標準偏差は,まず平均値を求めた上で計算されるものなので,ほとんど常に平均値と一緒に使うことになります。
|
一方,四分位点の求め方は
- データを昇順(または降順)に並べ替える。
- データ数が奇数個(2n+1個)の場合,
- データ全体の中央値を求め,それを第2四分位点(50パーセンタイル)にする。
- データを,中央値よりも小さい方n個,中央値1個,中央値よりも大きいn個に分割する。⇒ 4.へ
- データ数が偶数個(2n個)の場合,
- データ全体の中央値を求め,それを第2四分位点(50パーセンタイル)にする。
- データを,中央値よりも小さい方n個,中央値よりも大きいn個に分割する。⇒ 4.へ
- 小さい方のn個のデータの中央値を求め,それを第1四分位点(25パーセンタイル)にする。
- 大きい方のn個のデータの中央値を求め,それを第3四分位点(75パーセンタイル)にする。
|
|
図2.四分位点の求め方(6月10日の図6再掲)
です。
四分位点を説明する模式図は以下のようになります:
図3.四分位点の模式図
四分位点は,平均値よりもむしろ中央値と一緒に使うことになります。
|
箱ひげ図は
図4.箱ひげ図(4月22日の図4再掲)
のようなものです(2008年度5月28日の授業日誌に,もうちょっと詳しい図があります)。
図3と図4の,黄と緑の部分がそれぞれ対応しています。
図3の赤が図4で上に出るひげに対応しますが,赤の中に他の値よりも著しく大きい値(はずれ値)が存在する場合は,ひげはほどほどの長さで止めて,はずれ値をひげの上方に○とか×とかで表示します。
同様に,図3の青が図4で下に出るひげに対応していて,青の中に他の値よりも著しく小さい値(はずれ値)が存在する場合は,はずれ値をひげの下方に○とか×とかで描きます。
ひげをどこまで伸ばすか(どこからはずれ値として扱うか)は,そのつど決めればいいのですが,たとえば教科書p.36には,箱の上下に箱の長さの1.5倍以上離れている値をはずれ値とする,とあります(図4はテキトーに描いたものなので,教科書のその基準には合っていません)。
箱ひげ図の良い点は,複数の箱ひげを並べて比較できる点です。
ヒストグラムと比べて必ずしも箱ひげ図は情報の量が多いとは言えませんが,複数のヒストグラムを並べて描くよりも複数の箱ひげを並べて描いた方がデータの特徴や傾向を比較しやすい場合があります。
|