信頼区間、有意差検定、P値について学ぶ

     

ポイント⑨:対応のない場合の有意差判定

所長:『対応のない場合』から説明しよう。
集団の平均値に着目して、母集団を調べることになる。今回のケースでいえば、40才以上主婦の2014年と39才以下主婦の2014年の平均値の違いを調べて、母集団の平均値の違いを評価することだ。
雪乃:
先ほど、2014年において40才以上主婦と39才以下主婦の平均値は、それぞれの平均値の幅(=信頼区間)を算出して比較すると教えてもらいましたけど、その方法ではいけないのですか。
所長:その方法だよ。今までは『対応のない場合』を学んでいたんだ。
だから『対応のない場合』の説明はこれでおしまいにするが、今まで学んだことをまとめたまえ。


ポイント⑩:対応のある場合の有意差判定

所長:今から『対応のある場合』の説明をするよ。
雪乃:よろしくお願いします。
所長:『対応のある場合』は、その集団の平均値に着目しないんだ。今回のケースでいえば、40才以上(もしくは39才以下)の2013年の平均値と、2014年の平均値を比較してはいけないということ。
所長:右の表は雪乃の友人が持ってきた40才以上主婦のデータだ。差(増分)は、へそくり貯金額について2014年~2013年を引いた値だよ。


所長:『対応のある場合』では個々の人の差に着目するのが特色だ。
主婦No1の差データはいくつかな?
雪乃:36.0万円です。
所長:『差データ』の49人分の平均値を計算してください。
雪乃:36.0+9.0+5.0+……(-5.0)+30.5+(-24.4))÷49=9.2万円です。
所長:次に、この『差データ』の信頼区間を計算してみよう。信頼区間を求めるには、まずは何を計算するのかな。
雪乃:標本誤差です。
所長:標本誤差の計算方法を覚えなくてもよいといったけど。ここでもう一度だけ使ってみよう。
雪乃:計算してみます。標本誤差の公式を使います。

雪乃:田中君の持参データの末尾に記載されている『差データ』の標準偏差は24.4万円です。


 =7  標本誤差は2×24.4÷7=7.0 です。


信頼区間は平均±標本誤差 なので、『差データ』の信頼区間は9.2±7.0
これより2.2万円 ~ 16.2万円になります。
所長:よくできました。


所長:『対応のある』データの場合、この『差データ』の平均値の幅(信頼区間)が-(マイナス)の値から+(プラス)の値の間にあるのかどうか、この例題のように+(プラス)の値から+(プラス)の値の間にあるのか、すなわち信頼区間の間に0(ゼロ)を挟むかどうかが、重要なのだ。
0(ゼロ)を挟むということは+(プラス)も-(マイナス)もあるということだよ。+(プラス)の場合は2014年が高くなり、-(マイナス)の場合は2013年が高くなる。
雪乃:よく分かりません。
所長:40才以上主婦の2013年と2014年の『差データ』の平均値の幅は2.2万円 ~ 16.2万円で0(ゼロ)を挟まない。ということは、別の40才以上主婦でも『差データ』の平均値はこの幅の範囲内となり、すなわち40才以上は39才以下を上回り、へそくり貯金額の増加が認められることになる。すなわち、母集団の2013年と2014年の平均値に違いがある、といえる。

所長:一方で、『差データ』の平均値の幅に0(ゼロ)を挟んでいる場合は、別の主婦を調べたら『差データ』の平均値が+(プラス)になることも、-(マイナス)になることも、0(ゼロ)になることもある。


ということは、39才以下主婦の2013年と2014年でへそくり貯金額の増加が認められたり、認められなかったり、変わらなかったりするということであり、2013年と2014年で平均値に違いがあるかわからないということになる。すなわち、『母集団の平均値に違いがある、とは言えない』と判断する。


雪乃:やっと分かりました。
所長:39才以下主婦の2013年と2014年の『差データ』の平均値の幅(信頼区間)を計算してください。
雪乃:公式を使います。




田中君の持参データの末尾に記載されている『差データ』の平均値は10.6万円、標準偏差は36.5万円です。


 =6.86


標本誤差は2×36.5÷6.86=10.7 です。
信頼区間は平均±標本誤差 なので、『差データ』の信頼区間は10.6±10.7
これより -0.1万円 ~ 21.3万円になります。
所長:グラフを描いてみて。
雪乃:了解です。

所長:39才以下主婦の2013年と2014年では、母集団におけるへそくり貯金額の平均値に違いがありますか?
雪乃:ありません。
所長:『対応のある』場合でP値を求めてみると次になるんだ。

雪乃:分かりました。
所長:ちなみに40才以上と39才以下の2013年⇒2014年のP値は次のとおりです。


雪乃の田中君への回答

この回答を持って、後日、田中君と会った雪乃。


「2013年⇒2014年のへそくり貯金額の増加について、39才以下主婦の方が増分が大きいのに、有意差は39才以下主婦で「ない」、40才以上主婦で「ある」という結果になっているのはなぜか。」との疑問に対して、次の回答をしました。

40才以上の差データ、39才以下の差データの平均値を見ると、39才以下の増分が大きいです。しかし、40才以上の49人、39才以下の47人それぞれのデータのバラツキに着目すると、39才以下の方がデータのばらつき(標準偏差)が大きいです。

      差データの標準偏差 40才以上→24.4 39才以下→36.5

統計学上の処理を行うと、40才以上のP値は0.0108、39才以下のP値は0.0518でした。P値は平均値だけでなく、n数やデータのバラツキも考慮して算出されます。
今回のデータでは、n数は両群間に大きな差がないことから、このP値の差はデータのバラツキに起因すると考えられます。また、P値は一般的に0.05を下回れば「有意差あり」、上回れば「有意差なし」と判断しますので、39才以下主婦はわずかですが、統計学上では『有意差なし』となります。

田中:雪乃さん、すばらしい。ところで、40才以上より、39才以下で標準偏差が大きいということはどういう事なの。
雪乃:それはですね。えーと、田中君の持参したデータを見て説明するね。
各々最も小さい値と最も大きい値を探してみて。
田中:40才以上 最小値 -55  最大値 54
     39才以下 最小値 -75  最大値 85
雪乃:39才以下主婦の方が2013年→2014年の変動が大きいということ。
差データの平均値の推定は変動が大きい方がしにくい。だから有意差がある判定がしにくくなると思ってくれればいいわ。

田中:説明もうまいなー。これから時間ある?ご馳走するよ。


第5話 終わり

制作:菅 民郎 
理学博士 
株式会社アイスタット代表  
ビジネス・ブレークスルー大学院教授

参考 Excelの分析ツールを使って有意差を調べる



対応がある場合


対応がない場合
<<この章のTOPへ戻る                                 < 前のページへ