<<前のページへ      3

《数量化1類(3/3) 》

2. 数量化1類の応用/カテゴリースコア矛盾現象と説明変数の選択方法
カテゴリースコア矛盾現象が起こる例題

 ○○地区のコンビニ14店舗について、1日当りの平均売上額(日販)と、日販に影響を及ぼす要素と想定される、通行人、酒の販売有無、競合店有無、来店者満足度、立地条件について調べました。通行人、来店者顧客満足度は数量データで測定しましたがカテゴリーデータに変換しました。

 このデータに数量化1類を適用し、日販を予測するモデル式を作成することにしました。

カテゴリースコア矛盾現象

 右の表に、数量化1類より得られたカテゴリースコア、日販のカテゴリー別平均値の結果を示しました。
 カテゴリースコアとカテゴリー別平均の値が対応していない説明変数があるとき、カテゴリースコア矛盾現象が起こったといいます。

 対応の有無は、カテゴリースコアとカテゴリー別平均の単相関係数から調べられます。先生は単相関係数が-1.0~0.5の説明変数が一つでもあればカテゴリースコア矛盾現象は起こったと判断します。この例題はこの現象がみられました。

説明変数の選択方法

 カテゴリースコア矛盾現象が起こらない分析精度の高い関係式(カテゴリースコア)を得るには、どのような説明変数を用いるかによって決まります。せっかく良いデータがあっても、説明変数の選択方法を知らないために、良くない関係式を算出している人がいます。ぜひ次に述べる事柄を理解し、素晴らしい関係式を求めてください。

 目的変数と相関の高い変数を説明変数にします。相関は目的変数が数量データ、説明変数がカテゴリーデータなので相関比を用います。相関比が0.25以上のものを説明変数にするのが一般的です。0.25という値は、必ずしも絶対的なものではなく、1つの目安です。先生の場合、0.1とかなり低い値を設定して、説明変数を多めにとり、次の方法で絞り込みを行っています。
 ここで選ばれた説明変数の中から、次の方法によって説明変数の絞り込みを行います。

 <統計学の理論的立場から説明変数を選択>
説明変数相互で相関の高い変数を探し、どちらかの変数を落とします。
 説明変数はカテゴリーデータなので、説明変数相互の相関はクラメー連関係数を用います。クラメール連関係数が0.5以上の2変数を探し、どちらかの変数を落とします。この値も上記同様に1つの目安です。落とし方は、落とす候補になった変数と目的変数との相関比をそれぞれ調べて、相関比の低い方を落とします。

 下記の例では、X1とX2とのクラメール連関係数が0.5以上なので、どちらかを落とすことになります。 YとX1、YとX2の相関比を比べるとYとX2の方が低いので、X2を落とします。選択された変数で数量化1類を行い、再度、カテゴリースコア矛盾現象をチェックし、矛盾がなければ完了です。


データが全て同じ値の説明変数は落とします。
重回帰分析の2.重回帰分析の応用/説明変数の選択方法の説明変数の選択方法を参照ください。

カテゴリー別件数(n数)が2以下の説明変数は落とします。
 説明変数ごとに、カテゴリー別件数(n数)を調べ、n数が2以下の説明変数は落とします。落としたくない場合、そのカテゴリーを他のカテゴリーへ統合するか、そのカテゴリーを削除して、数量化1類を実行します。



カテゴリースコア矛盾現象が起こらないカテゴリースコア

 コンビニエンスの売上データについて、説明変数の選択を行い、カテゴリースコア矛盾現象の起こらないカテゴリースコアを算出してみましょう。

 目的変数と説明変数との相関比を算出しました。
相関比は0.25を上回っているので、全て選択します。
 説明変数相互のクラメール連関係数(相関マトリックスという)を算出しました。
クラメール連関係数が最大で0.5を上回ったのは立地条件と来店者顧客満足度の0.744です。
日販と立地条件の相関比は0.612、日販と来店者顧客満足度の相関比は0.569なので、相関比の低い来店者顧客満足度落とします。

 絞り込んだ説明変数で数量化1類を行い、説明変数ごとに、カテゴリースコアとカテゴリー別平均値との単相関係数が0.5を上回っているかを調べました。
カテゴリースコア矛盾現象が起こらないカテゴリースコアとなりました。


カテゴリースコア矛盾現象が起こらないカテゴリースコア

 コンビニエンスの売上データについて、説明変数の選択を行い、カテゴリースコア矛盾現象の起こらないカテゴリースコアを算出してみましょう。
 目的変数と説明変数との相関比を算出しました。相関比は0.25を上回っているので、全て選択します。


 説明変数相互のクラメール連関係数(相関マトリックスという)を算出しました。クラメール連関係数が最大で0.5を上回ったのは立地条件と来店者顧客満足度の0.744です。日販と立地条件の相関比は0.612、日販と来店者顧客満足度の相関比は0.569なので、相関比の低い来店者顧客満足度落とします。

 絞り込んだ説明変数で数量化1類を行い、説明変数ごとに、カテゴリースコアとカテゴリー別平均値との単相関係数が0.5を上回っているかを調べました。カテゴリースコア矛盾現象が起こらないカテゴリースコアとなりました。


<<前のページへ      3