第3回「正規分布に従う」

このシリーズでは、アイスタット統計セミナー受講者の「知っているようで、意外に知らなかった」という声をもとに、統計の基礎や分析者が陥りやすい統計の落とし穴などについて解説していきます。
第3回では「正規分布」を簡単に学び、統計学の「正規分布に従う」に落とし穴があることを説明します。


◆ 正規分布 ◆


「収集したデータはどのような傾向を持っているのか」また「特定したデータが集団の中でどのような位置にいるのか」を知りたい時、データを整理する方法の1つとして「度数分布表」があります。 この度数分布表を折れ線グラフにした時、形状はデータの分布状況により「左または右に偏っている」「左右対称」「山が2つ」「一直線」など様々です。
平均値付近が最も多く、平均値から離れるに従い減少する左右対称・釣り鐘型の曲線をもつ分布を正規分布といいます。正規分布は確率分布の1種で、形状はデータの平均値、標準偏差によって決まります。

正規分布は日常生活のあらゆるところに存在します。
「学力テスト」や「人の身長」「工業製品の規格誤差」など、「自然に生じる誤差や個体差」は正規分布になることが多いです。
第3回統計知識の落とし穴・分布図

◆ 正規分布の活用場面 ◆

正規分布は、データの傾向を把握する以外に下記のようなことにも活用できます。
  • バラツキを表すのに適しているため、統計学の検定や推定などに用いられる。
  • ある範囲にどれだけのデータが含まれているのかを知ることができる。
  • 正規分布の性質や面積から、多くの物事が起こる確率を計算したり、予測に使うことができる。    
例1)ある範囲内に入っている人が何%程度を占めているのかが分かる
例2)テストの点で〇〇番以内に入るには何点とれば良いか?
例3)測定誤差の範囲は?






第3回・統計知識の落とし穴

統計学において、「正規分布に従うことが前提ですよ」といった言葉を目にしたことがあるかと思います。
理解してデータ解析を行っている人は問題ありませんが、下記のように解釈している方は落とし穴にご注意を!




NG①の理由
「正規分布に従う」の意味を理解していない

統計学において「正規分布に従う」とは、簡単に言うと 
「母集団の分布が正規分布」 = 「 標本(データ)も正規分布」 の状況を意味します。

世の中の事象は正規分布に従っていることが多いと数学的に証明されています。 
また、ある母集団の分布が正規分布である場合、それぞれの標本の平均値の母集団の分布も正規分布であることが数学的に証明されています。(中心極限定理)




「正規分布に従う」の説明がある統計手法は上記の原理を利用しています。
分析者は意味を理解して、必ず「データが正規分布に従っているかどうか」を確認しましょう。


NG②の理由
「正規分布に従う」が前提の統計的検定の手法で、正規分布かどうかを確認していない

「正規分布に従う」が前提の統計的検定の手法で、パラメトリック検定(t検定、F検定、分散分析など)があります。

集団の一部分(標本)にアンケート調査や実験・検査を行った結果が集団全体(母集団)にもいえるかどうかを調べる方法です。母集団が正規分布に従うという仮定のもとで、「母集団」と「標本(データ)」の2つの正規分布がどれぐらい離れているかを検証します。

そのため、パラメトリック検定を行う前に標本(データ)を使って、母集団が正規分布かどうかを推測することが必須となります。



<豆知識>
統計的検定の「t検定」は正規分布であることが前提ですが、正規分布でなくてもサンプルサイズが十分に大きければt検定を適用することができます。
豆知識
「サンプルサイズが十分に大きい」の目安は30件で、2群合わせると60件以上です。

サンプルサイズが60件に満たない場合は、t検定を適用することができません。
母平均の差の検定は「ノンパラメトリック検定」を適用します。



ノンパラメトリック検定は、母集団の分布に正規分布のような特定の分布を仮定せず、分布の形によらずに行える検定です。 得られたデータ数(標本数)が少なく、データが従う分布を仮定することが困難であり、パラメトリック検定を利用することが不適切であると判断される際に利用します。



正規分布の可否で、解析手法が異なるため、必ず「データが正規分布に従っているかどうか」を確認しましょう。


NG③の理由
正規分布であるか否かを目視や感覚で判断している

グラフの形状が左右対称になっていても「尖りすぎた山」「平らすぎる山」は正規分布といえません。
そのため形状が正規分布であるか(正規性という)を統計学的に判定しなければなりません。
よく使われる判定方法は下記の3つです。また、調べる目的により判定方法が異なるため、注意が必要です。

【データの正規性】
 検査・調査したデータから作成した度数分布が正規分布であるかを調べる方法

① 歪度、尖度による判定
「-0.5<歪度<0.5」「-0.5<歪度<0.5」 (アイスタット基準 )の場合は、正規分布であると見なす。

歪み尖り

② 正規確率プロットによる判定
散布点が直線傾向にあると判断&決定係数が0.99以上の場合は、正規分布であると見なす。

正規分布プロット


【母集団の正規性】
 検査・調査より得た度数分布から、母集団における度数分布が正規分布であるかを推測する方法

③ 正規性の検定
p値から正規分布であるかを判断します。
p値<0.05の場合、「正規分布でない」がいえる。
p値>0.05の場合、「正規分布でない」がいえない。(「正規分布である」と判断する)



上記①~③は、アイスタット開発フリーソフト「Excel統計解析ソフト」を使って判定することができます。

※以下をクリックすると手順が表示されます。

① 歪度、尖度による判定
統計解析ソフトウェア:「基本統計量」
統計解析ソフト・基本統計量(歪度・尖度による判定)

出力結果
ソフト出力結果(歪度・尖度による判定)
② 正規確率プロットによる判定
統計解析ソフトウェア:「正規分布」 ➡ 「3.正規確率プロット」
統計解析ソフト・正規分布(正規確率プロットによる判定)

出力結果
ソフト出力結果(正規確率プロットによる判定)
③ 正規性の検定
統計解析ソフトウェア:「正規分布」 ➡ 「4.正規分布のあてはめ」 ➡ 「個体データ」
統計解析ソフト・正規分布(正規分布の当てはめ)

出力結果


■ アイスタット定期セミナー開催中

「正規性の検定」は【実務で役立つ・有意差検定セミナー】で学べます。

https://istat.co.jp/seminar/statistial_difference


「正規分布」は【実務で役立つデータ分析・統計解析セミナー】で学べます。

https://istat.co.jp/seminar/statistial


■アイスタットでは、Excel で作業できる統計解析ソフトウエアを無料にてご提供中!(Windows版のみ)

アンケート調査表作成・集計・解析入門セミナー

調査票の作成方法、アンケートデータの集計方法、集計結果の見方・活用方法を学びます。

予測入門セミナー

予測のための基礎知識、予測の仕方、予測解析手法の活用法・結果の見方を学びます。

統計解析入門セミナー

統計学、解析手法の役割から種類、概要までを学びます。

マーケティングプランニング&マーケティングリサーチ入門セミナー

マーケティングリサーチを学ぶ上で基礎・基本からの調査のステップ、機能までをわかりやすく解説しています。