前へ    2 

1.2 データタイプ ~統計データには種類がある~

先生:前ページで統計学の対象と明らかにできる事柄はわかったかな?次は統計学で取り扱うデータについて、ちょっと考えてみよう。データには、“測れる”データと“測れない”データがあるんだ。

莉子:測れないデータってどんなものかしら。

先生:データは2つに大別される。

測れるデータ→数量データ

測れないデータ→カテゴリーデータ(カテゴリカルデータ)
この2種類だ。数量データとカテゴリーデータの具体例を示しておこう。

数量データとカテゴリーデータ

莉子:数字が数量データ、それ以外がカテゴリーデータですね。

先生:まぁそうなんだけど、その考え方ではちょっと危険なときがある。数量データには単位があって、カテゴリーデータにはないと覚えておこう。

数量カテゴリーとカテゴリーデータの単位

莉子:危険なとき?

先生:そう。アンケートの集計では便宜上、カテゴリーデータを数字に置き換えるのが一般的なんだ。データを入力する時には、文字より数字の方が入力しやすいからね。これは見た目では数字だけど数量データとは言えない。だから平均値や最大値、最小値などを求めてはいけないよ。

国語、数学のテスト成績

莉子:なるほど。血液型の平均をとっても意味がないですよね。

先生:そう。年齢や身長などの数量データは平均値を求めるけれど、血液型や性別などのカテゴリーデータはA型が何%、女性が何%というように比率を求めるんだ。データタイプによって集計の仕方は異なるわけだから、集めたデータがカテゴリーデータか数量データかを把握しておくことはとても重要なんだ。

莉子:はい。データの種類(数量orカテゴリー)に気をつけます。

先生:ただし、ちょっと例外があるんだ。小学生の時の通信簿は「とてもよい」「よい」「もう少し」といった段階評価じゃなかったかな?

莉子:ええ。3段階評価でした。

先生:この場合、数字に置き換えて平均値を求めてもいいんだ。あまり意味がないけど最大値や、最小値を求めてもいいよ。

莉子:さっきの血液型と何が違うのかしら。

先生:「とてもよい」「よい」「もう少し」というのは順序カテゴリーといって、並びに意味があるんだ。必ずこの順序か、逆の「もう少し」「よい」「とてもよい」のどちらかだ。「よい」「もう少し」「とてもよい」となっている通信簿はないよね。

莉子:たしかに。いつも並びは一緒だわ。

先生:このような場合には「とてもよい」を3点、「よい」を2点、「もう少し」を1点として平均を求めてもいいんだ。品質が「よい」「ふつう」「わるい」とか、サービスに「満足」「ふつう」「不満」なんかもそうだよ。


 

●ワンポイント●

 これは数量データ?カテゴリーデータ?

 数量データとカテゴリーデータの違いがわかったところで、ちょっと練習してみましょう。下のそれぞれは、数量データでしょうか。それともカテゴリーデータでしょうか。考えてみてください。

l  年収(457万、642万・・・・)

l  職業(会社員、自営業・・・・)

l  講習商品の使用満足度(満足、やや満足、どちらとも言えない、やや不満、不満)

l  この講座の評価(難しすぎる、ちょうどよい、やさしすぎる)

 

< 前のページへ(1/2)