《数量化1類(3/3) 》
2.数量化1類の応用/カテゴリースコア矛盾現象と説明変数の選択方法
カテゴリースコア矛盾現象が起こる例題
○○地区のコンビニ14店舗について、1日当りの平均売上額(日販)と、日販に影響を及ぼす要素と想定される、通行人、酒の販売有無、競合店有無、来店者満足度、立地条件について調べました。通行人、来店者顧客満足度は数量データで測定しましたがカテゴリーデータに変換しました。
このデータに数量化1類を適用し、日販を予測するモデル式を作成することにしました。
カテゴリースコア矛盾現象
右の表に、数量化1類より得られたカテゴリースコア、日販のカテゴリー別平均値の結果を示しました。
カテゴリースコアとカテゴリー別平均の値が対応していない説明変数があるとき、カテゴリースコア矛盾現象が起こったといいます。
対応の有無は、カテゴリースコアとカテゴリー別平均の単相関係数から調べられます。先生は単相関係数が-1.0~0.5の説明変数が一つでもあればカテゴリースコア矛盾現象は起こったと判断します。この例題はこの現象がみられました。
説明変数の選択方法
カテゴリースコア矛盾現象が起こらない分析精度の高い関係式(カテゴリースコア)を得るには、どのような説明変数を用いるかによって決まります。せっかく良いデータがあっても、説明変数の選択方法を知らないために、良くない関係式を算出している人がいます。ぜひ次に述べる事柄を理解し、素晴らしい関係式を求めてください。
目的変数と相関の高い変数を説明変数にします。相関は目的変数が数量データ、説明変数がカテゴリーデータなので相関比を用います。相関比が0.25以上のものを説明変数にするのが一般的です。0.25という値は、必ずしも絶対的なものではなく、1つの目安です。先生の場合、0.1とかなり低い値を設定して、説明変数を多めにとり、次の方法で絞り込みを行っています。
ここで選ばれた説明変数の中から、次の方法によって説明変数の絞り込みを行います。
①説明変数相互で相関の高い変数を探し、どちらかの変数を落とします。
説明変数はカテゴリーデータなので、説明変数相互の相関はクラメー連関係数を用います。クラメール連関係数が0.5以上の2変数を探し、どちらかの変数を落とします。この値も上記同様に1つの目安です。落とし方は、落とす候補になった変数と目的変数との相関比をそれぞれ調べて、相関比の低い方を落とします。
下記の例では、X1とX2とのクラメール連関係数が0.5以上なので、どちらかを落とすことになります。 YとX1、YとX2の相関比を比べるとYとX2の方が低いので、X2を落とします。選択された変数で数量化1類を行い、再度、カテゴリースコア矛盾現象をチェックし、矛盾がなければ完了です。
②データが全て同じ値の説明変数は落とします。
重回帰分析の解説ページ「説明変数の選択方法」を参照ください。
③カテゴリー別件数(n数)が2以下の説明変数は落とします。
説明変数ごとに、カテゴリー別件数(n数)を調べ、n数が2以下の説明変数は落とします。落としたくない場合、そのカテゴリーを他のカテゴリーへ統合するか、そのカテゴリーを削除して、数量化1類を実行します。
④将来設定ができない説明変数を落とします。
重回帰分析ページの「統計学的の理論的立場ではなく、分析者の判断から説明変数を選択」を参照ください。
カテゴリースコア矛盾現象が起こらないカテゴリースコア
コンビニエンスの売上データについて、説明変数の選択を行い、カテゴリースコア矛盾現象の起こらないカテゴリースコアを算出してみましょう。
目的変数と説明変数との相関比を算出しました。
相関比は0.25を上回っているので、全て選択します。
説明変数相互のクラメール連関係数(相関マトリックスという)を算出しました。
クラメール連関係数が最大で0.5を上回ったのは立地条件と来店者顧客満足度の0.744です。
日販と立地条件の相関比は0.612、日販と来店者顧客満足度の相関比は0.569なので、相関比の低い来店者顧客満足度落とします。
絞り込んだ説明変数で数量化1類を行い、説明変数ごとに、カテゴリースコアとカテゴリー別平均値との単相関係数が0.5を上回っているかを調べました。
カテゴリースコア矛盾現象が起こらないカテゴリースコアとなりました。
カテゴリースコア矛盾現象が起こらないカテゴリースコア
コンビニエンスの売上データについて、説明変数の選択を行い、カテゴリースコア矛盾現象の起こらないカテゴリースコアを算出してみましょう。
目的変数と説明変数との相関比を算出しました。相関比は0.25を上回っているので、全て選択します。
説明変数相互のクラメール連関係数(相関マトリックスという)を算出しました。クラメール連関係数が最大で0.5を上回ったのは立地条件と来店者顧客満足度の0.744です。日販と立地条件の相関比は0.612、日販と来店者顧客満足度の相関比は0.569なので、相関比の低い来店者顧客満足度落とします。
絞り込んだ説明変数で数量化1類を行い、説明変数ごとに、カテゴリースコアとカテゴリー別平均値との単相関係数が0.5を上回っているかを調べました。カテゴリースコア矛盾現象が起こらないカテゴリースコアとなりました。
統計的推定・検定の手法別解説
統計解析メニュー
最新セミナー情報
予測入門セミナー
予測のための基礎知識、予測の仕方、予測解析手法の活用法・結果の見方を学びます。
マーケティングプランニング&マーケティングリサーチ入門セミナー
マーケティングリサーチを学ぶ上で基礎・基本からの調査のステップ、機能までをわかりやすく解説しています。
統計解析入門セミナー
統計学、解析手法の役割から種類、概要までを学びます。
アンケート調査表作成・集計・解析入門セミナー
調査票の作成方法、アンケートデータの集計方法、集計結果の見方・活用方法を学びます。