第2回「相関係数」と「p値」の解釈の仕方
このシリーズでは、アイスタット統計セミナー受講者の「知っているようで、意外に知らなかった」という声をもとに、統計の基礎や分析者が陥りやすい統計の落とし穴などについて解説していきます。
◆ 統計的検定・ p値 ◆
統計的検定は、母集団に関する仮説を標本調査から得た情報に基づいて検証することで、仮説的検定とも呼ばれています。様々な種類があり、「明らかにしたいこと(仮説)」「 データタイプが数量 or カテゴリー」「 比較対象が1群 or 2群 or 3群以上」「サンプルサイズ」などにより、適用できる手法が異なります。そのため、使う時は注意が必要です。
検定の手順は、どの手法を適用しても同じで、仮説を立て、検定統計量・p値を算出し、検証します。
p値は、母集団について主張したいことが成立するかを判断するときの誤る確率です。
「p値<0.05」の場合は、「母集団について主張したいことが誤る確率が5%未満である」を意味します。
このことを「有意差がある/有意である」といいます。有意差があった場合の解釈の仕方(結論)は、アンケート調査や実験を行った結果は、母集団についてもいえる(関連性があるといえる)となります。
< 検定の種類・手順は省略 >統計的検定に関する詳細については、統計講座をご参照ください
統計ソフトウェアによっては、検定を行うと「p値」と一緒に「相関係数」も出力されるケースがあります。違いをきちんと理解し、正しく結果を読み取れている人は問題ありませんが、次のように解釈している方は落とし穴にご注意!
NG ①「相関係数」の数値で、有意差判定を行っている
NG ②「p値」に有意差があれば、「相関あり」 と思っている
NG ③「相関係数」が高いと、「p値」も必ず有意差があると思っている
「相関係数」と「p値」の解釈の仕方は、異なります!!!
NG①②の理由 「相関係数」はアンケート調査や実験を行ったデータについて、2項目間の関連性(相関)がどの程度であるかを数値的な根拠を持って示す指標です。それに対し「p値」は、アンケート調査や実験を行った結果が母集団にもいえるかどうか(関連性があるといえるか)を調べる指標です。間違えないように解釈をしましょう。 |
NG③の理由 「p値」はサンプルサイズ(データ数)に依存するため、サンプルサイズが大きくなればなるほど「p値」は小さくなり有意差が出やすくなる傾向があります。そのため、「相関係数」が高くても、サンプルサイズが小さいと「p値」は有意差なし(p値>0.05)といった結果になる場合もあります。(下記図参照) この現象は、サンプルサイズが影響していることが要因です。有意差を出したい場合は、サンプルサイズを増やすと良いでしょう。 |
n=300の解釈(例) ▼ 「副業・兼業経験あり」を回答した人は32%、「副業・兼業経験なし」を回答した人は68%で 「副業・兼業経験なし」が上回った。 ▼ 「東京都/大阪府」 別の「経験有無」をクロス集計表でみると、「副業・兼業経験あり」を 回答した人は「東京都」が26.2%、「大阪府」が42.2%で「大阪府」の方が多かった。 ▼ 「東京都/大阪府」 と「副業・兼業の経験有無」との2項目の関連は、 相関係数「クラメール連関係数」0.1652より、弱いながら関連(相関)があった。 ▼ クロス集計を行った結果が、母集団についてもいえるかは 独立性の検定(カイ二乗検定)p値0.004<0.05より母集団についても関連があるといえる。 |
きちんと理解し、使い分けましょう。
■ アイスタット定期セミナー開催中
「p値」は【入門編】有意差検定セミナーで学べます。
https://istat.co.jp/seminar/statistial_difference
■(株)アイスタットでは、Excel で相関係数を求められる統計解析ソフトウエアを無料にてご提供中!
(何度でもダウンロード可) Windows版のみ
アンケート調査表作成・集計・解析入門セミナー
調査票の作成方法、アンケートデータの集計方法、集計結果の見方・活用方法を学びます。
予測入門セミナー
予測のための基礎知識、予測の仕方、予測解析手法の活用法・結果の見方を学びます。
統計解析入門セミナー
統計学、解析手法の役割から種類、概要までを学びます。
マーケティングプランニング&マーケティングリサーチ入門セミナー
マーケティングリサーチを学ぶ上で基礎・基本からの調査のステップ、機能までをわかりやすく解説しています。