1      次のページへ>>

《数量化2類 (1/3)》

1. 数量化2類の基本

数量化2類で明らかにできること

 数量化2類は判別分析と非常によく似た手法です。目的変数のデータ形態は判別分析と同じカテゴリーデータです。説明変数のデータ形態は、判別分析が数量データであるのに対し、数量化2類はカテゴリーデータです。
 数量化2類は、目的変数と説明変数との関係を調べて関係式を作成し、その関係式を用いて次のことを明らかにする手法です。
説明変数カテゴリーと目的変数カテゴリーとの関連性
説明変数の重要度ランキング
③    判別(予測)

数量化2類で適用できるテーマ

 数量化2類が適用できるテーマを示します。
 新規開店するお店の前を通行する人を対象に来店意向のアンケートをしました。来店意向が「有る」と「無い」を回答した25人のデータから、来店有無判別の関係式を作成し、来店意向が「わからない」と回答した5人について来店有無を判別(予測)します。
 このとき収集したデータの形態を調べると、年齢、性別、酒嗜好度は説明変数でカテゴリーデータ、来店意向有無は目的変数でカテゴリーデータです。これよりこのテーマには数量化2類が適用されることになります。
数量化2類で適用できるデータ

  右の数表はテーマのデータを示したものです。
 数量化2類に適用するデータは次式の条件を満たしてなければなりません。
 個体数>説明変数カテゴリー総数-説明変数個数+1

 右のデータは 
 説明変数カテゴリー総数=5(年齢)+2(性別)+3(酒嗜好度)=10、 説明変数個数=3より

 説明変数カテゴリー総数-説明変数個数+1=10-3+1=8

 関係式を作成するために数量化2類を適用する個体数は25人なので、 25>8より、このデータは数量化2類が適用できます。

数量化2類をする前の基本解析

数量化2類を行う前に基本解析を行います。
目的変数、説明変数はカテゴリーデータなので、各カテゴリーの割合を算出します。
目的変数と説明変数の関係を調べます。目的変数がカテゴリーデータ、説明変数がカテゴリーデータなので、クロス集計とクラメール連関係数を算出します。クロス集計、クラメール連関係数から目的変数と関連している説明変数は何かを検討します。


カテゴリースコア

 クロス集計から、年齢が若くなるほど、女性より男性で、お酒が好きな人ほど、来店意向率が高くなることがわかりました。
 残念ながら、この情報だけでは予測の問題は解決できません。そこで、クロス集計からから把握できたこと、すなわち各カテゴリーの回答者が来店意向の「有り」「無し」のどちらに近いかを、何らかの方法を用いて数量で表現することを考えてみます。
 具体的には、「20-24歳」の数量は1.1点、「50歳以上」は-0.8で、「20-24歳」は来店意向の「有り」に近く、「50歳以上」は「無し」に近いといったことがわかる、各カテゴリーの数量化です。
 仮にすべてのカテゴリーに数量が与えられたとすれば、予測すべきある人、例えばS30は、「20-24歳」、「男性」、「酒嫌い」に与えられたそれぞれの数量の合計によって、S30は「有り」「無し」のどちらに近いかを予測することができます。
 このような考え方で各カテゴリーの数量化を行う方法が、数量化2類という解析手法です。数量化された値のことを、数量化2類ではカテゴリースコアといいます。
 数量化1類のカテゴリースコアは、説明変数各カテゴリーの目的変数に対する貢献度が把握できます。例えば、「巨人が勝つ」のスポーツ新聞売上部数の貢献度はプラス8部です。これに対し、数量化2類のカゴリースコアは、説明変数各カテゴリーの目的変数カテゴリーへの近さ(関連性)が把握できます。
 来店予定有無のデータに数量化2類を適用し、カテゴリースコアを求めると、次の表のようになります









1      次のページへ>>