信頼区間、有意差検定、P値について学ぶ

     

ポイント⑨:対応のない場合の有意差判定

所長:  「『対応のない場合』から説明しよう。
集団の平均値に着目して、母集団を調べることになる。今回のケースでいえば、40才以上主婦の2014年と39才以下主婦の2014年の平均値の違いを調べて、母集団の平均値の違いを評価することだ。」

雪乃:  「先ほど、2014年において40才以上主婦と39才以下主婦の平均値は、それぞれの平均値の幅(=信頼区間)を算出して比較すると教えてもらいましたけど、その方法ではいけないのですか。」

所長:  「その方法だよ。今までは『対応のない場合』を学んでいたんだ。
だから『対応のない場合』の説明はこれでおしまいにするが、今まで学んだことをまとめたまえ。」
img src=
ポイント⑩:対応のある場合の有意差判定

所長:  「今から『対応のある場合』の説明をするよ。」
雪乃:  「よろしくお願いします。」

所長:  「『対応のある場合』は、その集団の平均値に着目しないんだ。今回のケースでいえば、40才以上(もしくは39才以下)の2013年の平均値と、2014年の平均値を比較してはいけないということ。右の表は雪乃の友人が持ってきた40才以上主婦のデータだ。差(増分)は、へそくり貯金額について2014年~2013年を引いた値だよ。」
img src=
所長:  「『対応のある場合』では個々の人の差に着目するのが特色だ。主婦No1の差データはいくつかな?」
雪乃:  「36.0万円です。」

所長:  「『差データ』の49人分の平均値を計算してください。」
雪乃:  「36.0+9.0+5.0+……(-5.0)+30.5+(-24.4))÷49=9.2万円です。」

所長:  「次に、この『差データ』の信頼区間を計算してみよう。信頼区間を求めるには、まずは何を計算するのかな。」
雪乃:  「標本誤差です。」

所長:  「標本誤差の計算方法を覚えなくてもよいといったけど。ここでもう一度だけ使ってみよう。」
雪乃:  「計算してみます。標本誤差の公式を使います。」

雪乃:  「田中君の持参データの末尾に記載されている『差データ』の標準偏差は24.4万円です。

=7  標本誤差は2×24.4÷7=7.0 です。
 
信頼区間は平均±標本誤差 なので、『差データ』の信頼区間は9.2±7.0
これより2.2万円 ~ 16.2万円になります。」

所長:  「よくできました。『対応のある』データの場合、この『差データ』の平均値の幅(信頼区間)が-(マイナス)の値から+(プラス)の値の間にあるのかどうか、この例題のように+(プラス)の値から+(プラス)の値の間にあるのか、すなわち信頼区間の間に0(ゼロ)を挟むかどうかが、重要なのだ。
0(ゼロ)を挟むということは+(プラス)も-(マイナス)もあるということだよ。
+(プラス)の場合は2014年が高くなり、-(マイナス)の場合は2013年が高くなる。」

雪乃:  「よく分かりません。」

所長:  「40才以上主婦の2013年と2014年の『差データ』の平均値の幅は2.2万円 ~ 16.2万円で0(ゼロ)を挟まない。ということは、別の40才以上主婦でも『差データ』の平均値はこの幅の範囲内となり、すなわち40才以上は39才以下を上回り、へそくり貯金額の増加が認められることになる。すなわち、母集団の2013年と2014年の平均値に違いがある、といえる。」

img src=
所長:  「一方で、『差データ』の平均値の幅に0(ゼロ)を挟んでいる場合は、別の主婦を調べたら『差データ』の平均値が+(プラス)になることも、-(マイナス)になることも、0(ゼロ)になることもある。

ということは、39才以下主婦の2013年と2014年でへそくり貯金額の増加が認められたり、認められなかったり、変わらなかったりするということであり、2013年と2014年で平均値に違いがあるかわからないということになる。すなわち、『母集団の平均値に違いがある、とは言えない』と判断する。」

雪乃:  「やっと分かりました。」

所長:  「39才以下主婦の2013年と2014年の『差データ』の平均値の幅(信頼区間)を計算してください。」
雪乃:  「公式を使います。」



「田中君の持参データの末尾に記載されている『差データ』の平均値は10.6万円、標準偏差は36.5万円です。」

=6.86

「標本誤差は2×36.5÷6.86=10.7 です。
信頼区間は平均±標本誤差 なので、『差データ』の信頼区間は10.6±10.7
これより -0.1万円 ~ 21.3万円になります。」

所長:  「グラフを描いてみて。」
雪乃:  「了解です。」

img src=
所長:  「39才以下主婦の2013年と2014年では、母集団におけるへそくり貯金額の平均値に違いがありますか?」
雪乃:  「ありません。」

所長:  「『対応のある』場合でP値を求めてみると次になるんだ。」

img src=
雪乃:  「分かりました。」

所長:  「ちなみに40才以上と39才以下の2013年⇒2014年のP値は次のとおりです。」
img src=

雪乃の田中君への回答


この回答を持って、後日、田中君と会った雪乃。

「2013年⇒2014年のへそくり貯金額の増加について、39才以下主婦の方が増分が大きいのに、有意差は39才以下主婦で「ない」、40才以上主婦で「ある」という結果になっているのはなぜか。」との疑問に対して、次の回答をしました。

40才以上の差データ、39才以下の差データの平均値を見ると、39才以下の増分が大きいです。しかし、40才以上の49人、39才以下の47人それぞれのデータのバラツキに着目すると、39才以下の方がデータのばらつき(標準偏差)が大きいです。

差データの標準偏差 40才以上→24.4 39才以下→36.5

統計学上の処理を行うと、40才以上のP値は0.0108、39才以下のP値は0.0518でした。

P値は平均値だけでなく、n数やデータのバラツキも考慮して算出されます。
今回のデータでは、n数は両群間に大きな差がないことから、このP値の差はデータのバラツキに起因すると考えられます。また、P値は一般的に0.05を下回れば「有意差あり」、上回れば「有意差なし」と判断しますので、39才以下主婦はわずかですが、統計学上では『有意差なし』となります。


田中:  「雪乃さん、すばらしい。ところで、40才以上より、39才以下で標準偏差が大きいということはどういう事なの。」

雪乃:  「それはですね。えーと、田中君の持参したデータを見て説明するね。各々最も小さい値と最も大きい値を探してみて。」

田中:  「40才以上 最小値 -55  最大値 54」
     「39才以下 最小値 -75  最大値 85」

雪乃:  「39才以下主婦の方が2013年→2014年の変動が大きいということ。差データの平均値の推定は変動が大きい方がしにくい。だから有意差がある判定がしにくくなると思ってくれればいいわ。」

田中:  「説明もうまいなー。これから時間ある?ご馳走するよ。」


第5話 終わり


制作: 菅 民郎 
理学博士
株式会社アイスタット代表
ビジジネス・ブレークスルー大学大学院 名誉教授

参考 Excelの分析ツールを使って有意差を調べる

img src=


対応がある場合
img src=
img src=
img src=


対応がない場合
img src=
img src=
img src=
<<この章のTOPへ戻る                    < 前のページへ

最新セミナー情報

予測入門セミナー

予測のための基礎知識、予測の仕方、予測解析手法の活用法・結果の見方を学びます。

マーケティングプランニング&マーケティングリサーチ入門セミナー

マーケティングリサーチを学ぶ上で基礎・基本からの調査のステップ、機能までをわかりやすく解説しています。

統計解析入門セミナー

統計学、解析手法の役割から種類、概要までを学びます。

アンケート調査表作成・集計・解析入門セミナー

調査票の作成方法、アンケートデータの集計方法、集計結果の見方・活用方法を学びます。