信頼区間、有意差検定、P値について学ぶ

   2      次へ

ポイント⑤:「信頼区間」は○±△を図式化した以上の意味をもつ!

所長:  「信頼区間は単に○±△を図式化したという以上の意味を持ちます。」
雪乃:  「どのようなことですか?」
所長:  「2014年における40才以上主婦と39才以下主婦のへそくり貯金額の信頼区間を並べてみてください。」
雪乃:  「40才以上主婦 69.1万円~92.7万円」
     「39才以下主婦 65.0万円~89.8万円」
所長:  「これらを並べた図にしてください。」
img src=
所長:  「40才以上の平均値が最も低くなるのはいくつ?」
雪乃:  「69.1万円です。」

所長:  「39才以下の平均値が最も高くなるのはいくつ?」
雪乃:  「89.8万円です。」

所長:  「この結果からどのようなことが言える?」
雪乃:  「そうですね、アンケート調査の結果は40才以上が80.9万円で39才の77.4万円より高くなっているのに、母集団における平均値は『40才以上が39才以下を下回る』ということがあるということですね。」

所長:  「そうだ。グラフを見ると、40才以上と39才以下で平均値の幅が重なっているところがあるだろう。このような場合、『母集団における40才以上と39才以下の平均値に違いがある』とは言えないんだ。次の場合、母集団の平均値に違いがあるといえますか?」
img src=
雪乃:  「平均値の幅が重なっていないので、違いがあると言えます。」
所長:  「その通り。」

雪乃:  「図(上記)から母集団の平均値に違いがあることはわかりましたが、この結論は100%正しいといえるのですか?」
所長:  「統計学は神様じゃないさ。外れることもあるよ。統計学から導かれる結論は当たる確率は95%、誤る確率は5%以下で信頼区間は求められている。」
ポイント⑥:標本誤差は主婦数とデータのバラツキから求められる

所長:  「データのバラツキを求める基本統計量は何?」
雪乃:  「馬鹿にしないください。その位知っています。標準偏差です。」

所長:  「雪乃の友人から入手したデータ表をみせてください。このデータ表の末尾に標準偏差は記載されているね。標本誤差は調査したデータの数(n)とデータのばらつき(標準偏差 SD, Standard Deviation)から決まります。nが大きいほど、ばらつきが小さいほど標本誤差は小さくなります。」

雪乃:  「とういことは、n数が大きくデータのばらつきが小さいほど、信頼区間の幅は狭くなり、精度が良くなるということですか?」
所長:  「その通り。」
img src=

所長:  「具体的には標本誤差の計算式は下のようになります。」
img src=
所長:  「この式は覚える必要がないけど、この式の意味は理解しておくこと。」

雪乃:  「分子に標準偏差、分母にn数か。ということは、データのばらつき度合いが小さく、n数が大きいと、標本誤差は小さくなりますね。標本誤差が小さいということは、信頼区間の幅は狭くなり、精度が良いということですね!」
所長:  「その通り、下記表で標本誤差が最も小さいのは?」
img src=

雪乃:  「Aです。」

ポイント⑦:母集団の平均値の違いを測るツール、それがP値
   
所長:  「実は、母集団の平均値に違いがある、もしくは違いがあるとはいえない、というのは『P値(Probability Value)』というものを用いてもわかる。というよりは、最近はP値で違いを表現することが主流です。P値は標準偏差などと同様に手計算すると手間がかかるけど、今はパソコンのソフトウエアで瞬時に出力できるんだ。」

雪乃:  「せっかく平均値の幅(=信頼区間)や、母集団の平均値に違いがあるかどうかを勉強したのに、無駄だったんですか?」
所長:  「少しも無駄ではないよ。P値は、2つの信頼区間の重なり具合によって決まる値なので、信頼区間とP値は同じものだよ。」

img src=
雪乃:  「よく分かりました。」

所長:  「P値が0.05より小さければ、信頼区間が重なっていないので、母集団の平均値に違いがあると判断する。

統計学では、P値<0.05の場合「有意差がある」という。

P値が0.05より大きければ、信頼区間が重なっているので、母集団の平均値に違いがあるといえない(有意差がない)と判断する。」

雪乃:  「2014年における40才以上と39才以下の信頼区間のP値を教えてください。」
img src=
所長はExcelを起動させあっという間にP値を算出した。

所長:  「P値は0.68です。これより40才以上と39才以下では有意差がないと判断する。」
雪乃:  「P値が理解できてうれしいです。」
所長:  「そんなに喜ばれたんだから、もう一つ付け加えよう。P値はよく、体をかがめてバーをくぐるリンボーダンスに例えられる。かがんだ高さがP値で、バーの高さが0.05なんだ。ということで、リンボーダンスのダンサー(求められたP値)がバー(0.05)を下回ればセーフで、母集団の平均値に違いがある(有意差がある)、と判断するのだ。」
img src=
雪乃:  「リンボーダンス知らないので、かえってわからないです。」
所長:  「そうなの、それは残念。」

雪乃:  「質問です。有意差は「P<0.05」でなく「P≦0.05」と定義している場合もありますがどちらの表記が正しいですか?」
所長:  「“≦”か“<”にあまりこだわる必要はない。」

雪乃:  「P値はどのようにして求めるのですか?」
所長:  「計算式が複雑なため手計算ではできません。ソフトウエアを使って求めます。後でExcelの分析ツールでの求め方を紹介しよう。」

雪乃:  「P値の0.05や0.016というのは、どういう意味なのでしょう?」
所長:  「P値が0.016ということは、母集団の平均値に違いがあるという結論がもしかしたら0.016、すなわち1.6%の確率で誤りになるということ。」
雪乃:  「ということは、P値が0.05だと5%の確率で誤りになるということですね。言い換えれば当たる確率は95%…、前回教えていただいた統計学の当たる確率95%と同じ数字ですね。」
所長:  「その通り! Pは「Probability」(=確率)の頭文字です。」

ポイント⑧:『対応のある』、『対応のない』とは何だろう

所長:  「『対応のある』とか『対応のない』とかを知っているかな?」
雪乃:  「聞いたことはあるけど意味は分かりません。」
所長:  「『『対応のある』というのは、今回のケースでいえば、40才以上主婦49人のへそくり貯金額の2013年と2014年の比較のことだ。要は、同じ人についての比較すること。」

雪乃:  「では、『対応のない』というのは何でしょう?」
所長:  「『対応のない』というのは、今回のケースでは、40才以上主婦の2014年へそくり貯金額と39才以下主婦の2014年へそくり貯金額を比較すること。異なる主婦群について比較することだよ。次を見るとよく分かるよ。」

img src=
雪乃:  「先にある調査概要の調査目的①を解決するには『対応がある場合』、②を解決するには『対応がない場合』を適用するということですね。」
所長:  「その通り。『対応のある場合』と『対応のない場合』では、計算の仕方が違うよ。今からその違いを説明しよう。」

 雪乃:  「何か難しそう。易しく教えてくださいね。」

最新セミナー情報

予測入門セミナー

予測のための基礎知識、予測の仕方、予測解析手法の活用法・結果の見方を学びます。

マーケティングプランニング&マーケティングリサーチ入門セミナー

マーケティングリサーチを学ぶ上で基礎・基本からの調査のステップ、機能までをわかりやすく解説しています。

統計解析入門セミナー

統計学、解析手法の役割から種類、概要までを学びます。

アンケート調査表作成・集計・解析入門セミナー

調査票の作成方法、アンケートデータの集計方法、集計結果の見方・活用方法を学びます。