信頼区間、有意差検定、P値について学ぶ

      次へ

ポイント⑤:「信頼区間」は○±△を図式化した以上の意味をもつ! 

所長:
信頼区間は単に○±△を図式化したという以上の意味を持ちます。
雪乃:
どのようなことですか?
所長:2014年における40才以上主婦と39才以下主婦のへそくり貯金額の信頼区間を並べてみてください。
雪乃:40才以上主婦 69.1万円~92.7万円
     
39才以下主婦 65.0万円~89.8万円
所長:これらを並べた図にしてください。


所長:40才以上の平均値が最も低くなるのはいくつ?
雪乃:69.1万円です。
所長:39才以下の平均値が最も高くなるのはいくつ?
雪乃:89.8万円です。
所長:この結果からどのようなことが言える?
雪乃:そうですね、アンケート調査の結果は40才以上が80.9万円で39才の77.4万円より高くなっているのに、母集団における平均値は「40才以上が39才以下を下回る」 ということがあるということですね。
所長:そうだ。グラフを見ると、40才以上と39才以下で平均値の幅が重なっているところがあるだろう。このような場合、「母集団における40才以上と39才以下の平均値に違いがある」とは言えないんだ。

所長:次の場合、母集団の平均値に違いがあるといえますか?

雪乃:平均値の幅が重なっていないので、違いがあると言えます。
所長:その通り。 
雪乃:「図(上記)から母集団の平均値に違いがあることはわかりましたが、この結論は100%正しいといえるのですか?
所長:統計学は神様じゃないさ。外れることもあるよ。統計学から導かれる結論は当たる確率は95%、誤る確率は5%以下で信頼区間は求められている。

ポイント⑥:標本誤差は主婦数とデータのバラツキから求められる

所長:データのバラツキを求める基本統計量は何?
雪乃:馬鹿にしないください。その位知っています。標準偏差です。


所長:雪乃の友人から入手したデータ表をみせてください。このデータ表の末尾に標準偏差は記載されているね。
所長:標本誤差は調査したデータの数(n)とデータのばらつき(標準偏差 SD, Standard Deviation)から決まります。nが大きいほど、ばらつきが小さいほど標本誤差は小さくなります。
雪乃:とういことは、n数が大きくデータのばらつきが小さいほど、信頼区間の幅は狭くなり、精度が良くなるということですか?
所長:その通り。


所長:具体的には標本誤差の計算式は下のようになります。

所長:この式は覚える必要がないけど、この式の意味は理解しておくこと。
雪乃:分子に標準偏差、分母にn数か。ということは、データのばらつき度合いが小さく、n数が大きいと、標本誤差は小さくなりますね。標本誤差が小さいということは、信頼区間の幅は狭くなり、精度が良いということですね!
所長:その通り、下記表で標本誤差が最も小さいのは?

雪乃:Aです。

ポイント⑦:母集団の平均値の違いを測るツール、それがP値

所長:実は、母集団の平均値に違いがある、もしくは違いがあるとはいえない、というのは『P値(Probability Value)』というものを用いてもわかる。というよりは、最近はP値で違いを表現することが主流です。P値は標準偏差などと同様に手計算すると手間がかかるけど、今はパソコンのソフトウエアで瞬時に出力できるんだ。
雪乃:せっかく平均値の幅(=信頼区間)や、母集団の平均値に違いがあるかどうかを勉強したのに、無駄だったんですか?
所長:少しも無駄ではないよ。P値は、2つの信頼区間の重なり具合によって決まる値なので、信頼区間とP値は同じものだよ。

雪乃:よく分かりました。
所長:P値が0.05より小さければ、信頼区間が重なっていないので、母集団の平均値に違いがあると判断する。
統計学では、P値<0.05の場合「有意差がある」という。
P値が0.05より大きければ、信頼区間が重なっているので、母集団の平均値に違いがあるといえない(有意差がない)と判断する。
雪乃:2014年における40才以上と39才以下の信頼区間のP値を教えてください。
所長はExcelを起動させあっという間にP値を算出した。

所長:P値は0.68です。これより40才以上と39才以下では有意差がないと判断する。
雪乃:P値が理解できてうれしいです。

所長:そんなに喜ばれたんだら、もう一つ付け加えよう。
P値はよく、体をかがめてバーをくぐるリンボーダンスに例えられる。かがんだ高さがP値で、バーの高さが0.05なんだ。ということで、リンボーダンスのダンサー(求められたP値)がバー(0.05)を下回ればセーフで、母集団の平均値に違いがある(有意差がある)、と判断するのだ。
雪乃:リンボーダンス知らないので、かえってわからないです。
所長:そうなの、それは残念。
雪乃:質問です。有意差は「P<0.05」でなく「P≦0.05」と定義している場合もありますがどちらの表記が正しいですか?
所長:“≦”か“<”にあまりこだわる必要はない。
雪乃:P値はどのようにして求めるのですか?
所長:計算式が複雑なため手計算ではできません。ソフトウエアを使って求めます。後でExcelの分析ツールでの求め方を紹介しよう。
雪乃:P値の0.05や0.016というのは、どういう意味なのでしょう?
所長:P値が0.016ということは、母集団の平均値に違いがあるという結論がもしかしたら0.016、すなわち1.6%の確率で誤りになるということ。
雪乃:ということは、P値が0.05だと5%の確率で誤りになるということですね。
言い換えれば当たる確率は95%…、前回教えていただいた統計学の当たる確率95%と同じ数字ですね。
所長:その通り! Pは「Probability」(=確率)の頭文字です。

ポイント⑧:『対応のある』、『対応のない』とは何だろう

所長:『対応のある』とか『対応のない』とかを知っているかな?
雪乃:聞いたことはあるけど意味は分かりません。
所長:『『対応のある』というのは、今回のケースでいえば、40才以上主婦49人のへそくり貯金額の2013年と2014年の比較のことだ。要は、同じ人についての比較すること。

雪乃:では、『対応のない』というのは何でしょう?
所長:『対応のない』というのは、今回のケースでは、40才以上主婦の2014年へそくり貯金額と39才以下主婦の2014年へそくり貯金額を比較すること。異なる主婦群について比較することだよ。次を見るとよく分かるよ。

雪乃:先にある調査概要の調査目的①を解決するには「対応がある場合」、②を解決するには「対応がない場合」を適用するということですね
所長:その通り。『対応のある場合』と『対応のない場合』では、計算の仕方が違うよ。今からその違いを説明しよう。
雪乃:何か難しそう。易しく教えてくださいね。