1.2 データタイプ ~統計データには種類がある~
先生:前ページで統計学の対象と明らかにできる事柄はわかったかな?次は統計学で取り扱うデータについて、ちょっと考えてみよう。データには、“測れる”データと“測れない”データがあるんだ。
莉子:測れないデータってどんなものかしら。
先生:データは2つに大別される。
測れるデータ→数量データ
測れないデータ→カテゴリーデータ(カテゴリカルデータ)
この2種類だ。数量データとカテゴリーデータの具体例を示しておこう。
莉子:数字が数量データ、それ以外がカテゴリーデータですね。
先生:まぁそうなんだけど、その考え方ではちょっと危険なときがある。数量データには単位があって、カテゴリーデータにはないと覚えておこう。
莉子:危険なとき?
先生:そう。アンケートの集計では便宜上、カテゴリーデータを数字に置き換えるのが一般的なんだ。データを入力する時には、文字より数字の方が入力しやすいからね。これは見た目では数字だけど数量データとは言えない。だから平均値や最大値、最小値などを求めてはいけないよ。
莉子:なるほど。血液型の平均をとっても意味がないですよね。
先生:そう。年齢や身長などの数量データは平均値を求めるけれど、血液型や性別などのカテゴリーデータはA型が何%、女性が何%というように比率を求めるんだ。データタイプによって集計の仕方は異なるわけだから、集めたデータがカテゴリーデータか数量データかを把握しておくことはとても重要なんだ。
莉子:はい。データの種類(数量orカテゴリー)に気をつけます。
先生:ただし、ちょっと例外があるんだ。小学生の時の通信簿は「とてもよい」「よい」「もう少し」といった段階評価じゃなかったかな?
莉子:ええ。3段階評価でした。
先生:この場合、数字に置き換えて平均値を求めてもいいんだ。あまり意味がないけど最大値や、最小値を求めてもいいよ。
莉子:さっきの血液型と何が違うのかしら。
先生:「とてもよい」「よい」「もう少し」というのは順序カテゴリーといって、並びに意味があるんだ。必ずこの順序か、逆の「もう少し」「よい」「とてもよい」のどちらかだ。「よい」「もう少し」「とてもよい」となっている通信簿はないよね。
莉子:たしかに。いつも並びは一緒だわ。
先生:このような場合には「とてもよい」を3点、「よい」を2点、「もう少し」を1点として平均を求めてもいいんだ。品質が「よい」「ふつう」「わるい」とか、サービスに「満足」「ふつう」「不満」なんかもそうだよ。
これは数量データ?カテゴリーデータ?
数量データとカテゴリーデータの違いがわかったところで、ちょっと練習してみましょう。下のそれぞれは、数量データでしょうか。それともカテゴリーデータでしょうか。考えてみてください。
●年収(457万、642万・・・)
●職業(会社員、自営業・・・・)
●講習商品の使用満足度(満足、やや満足、どちらとも言えない、やや不満、不満)
●この講座の評価(難しすぎる、ちょうどよい、やさしすぎる)