<<前のページへ      3

《数量化1類(3/3) 》

2.数量化1類の応用/カテゴリースコア矛盾現象と説明変数の選択方法

カテゴリースコア矛盾現象が起こる例題

 ○○地区のコンビニ14店舗について、1日当りの平均売上額(日販)と、日販に影響を及ぼす要素と想定される、通行人、酒の販売有無、競合店有無、来店者満足度、立地条件について調べました。通行人、来店者顧客満足度は数量データで測定しましたがカテゴリーデータに変換しました。

このデータに数量化1類を適用し、日販を予測するモデル式を作成することにしました。

カテゴリースコア矛盾現象

 右の表に、数量化1類より得られたカテゴリースコア、日販のカテゴリー別平均値の結果を示しました。
カテゴリースコアとカテゴリー別平均の値が対応していない説明変数があるとき、カテゴリースコア矛盾現象が起こったといいます。

対応の有無は、カテゴリースコアとカテゴリー別平均の単相関係数から調べられます。先生は単相関係数が-1.0~0.5の説明変数が一つでもあればカテゴリースコア矛盾現象は起こったと判断します。この例題はこの現象がみられました。

説明変数の選択方法

 カテゴリースコア矛盾現象が起こらない分析精度の高い関係式(カテゴリースコア)を得るには、どのような説明変数を用いるかによって決まります。せっかく良いデータがあっても、説明変数の選択方法を知らないために、良くない関係式を算出している人がいます。ぜひ次に述べる事柄を理解し、素晴らしい関係式を求めてください。

目的変数と相関の高い変数を説明変数にします。相関は目的変数が数量データ、説明変数がカテゴリーデータなので相関比を用います。相関比が0.25以上のものを説明変数にするのが一般的です。0.25という値は、必ずしも絶対的なものではなく、1つの目安です。先生の場合、0.1とかなり低い値を設定して、説明変数を多めにとり、次の方法で絞り込みを行っています。
ここで選ばれた説明変数の中から、次の方法によって説明変数の絞り込みを行います。

  • 統計学の理論的立場から説明変数を選択

  • ①説明変数相互で相関の高い変数を探し、どちらかの変数を落とします。
    説明変数はカテゴリーデータなので、説明変数相互の相関はクラメー連関係数を用います。クラメール連関係数が0.5以上の2変数を探し、どちらかの変数を落とします。この値も上記同様に1つの目安です。落とし方は、落とす候補になった変数と目的変数との相関比をそれぞれ調べて、相関比の低い方を落とします。

    下記の例では、X1とX2とのクラメール連関係数が0.5以上なので、どちらかを落とすことになります。 YとX1、YとX2の相関比を比べるとYとX2の方が低いので、X2を落とします。選択された変数で数量化1類を行い、再度、カテゴリースコア矛盾現象をチェックし、矛盾がなければ完了です。



    ②データが全て同じ値の説明変数は落とします。

    重回帰分析の解説ページ「説明変数の選択方法」を参照ください。 


    ③カテゴリー別件数(n数)が2以下の説明変数は落とします。

    説明変数ごとに、カテゴリー別件数(n数)を調べ、n数が2以下の説明変数は落とします。落としたくない場合、そのカテゴリーを他のカテゴリーへ統合するか、そのカテゴリーを削除して、数量化1類を実行します。

  • 統計学的の理論的立場ではなく、分析者の判断から説明変数を選択

  • ④将来設定ができない説明変数を落とします。

    重回帰分析ページの「統計学的の理論的立場ではなく、分析者の判断から説明変数を選択」を参照ください。


    カテゴリースコア矛盾現象が起こらないカテゴリースコア

     コンビニエンスの売上データについて、説明変数の選択を行い、カテゴリースコア矛盾現象の起こらないカテゴリースコアを算出してみましょう。

    目的変数と説明変数との相関比を算出しました。
    相関比は0.25を上回っているので、全て選択します。

    説明変数相互のクラメール連関係数(相関マトリックスという)を算出しました。
    クラメール連関係数が最大で0.5を上回ったのは立地条件と来店者顧客満足度の0.744です。
    日販と立地条件の相関比は0.612、日販と来店者顧客満足度の相関比は0.569なので、相関比の低い来店者顧客満足度落とします。

    絞り込んだ説明変数で数量化1類を行い、説明変数ごとに、カテゴリースコアとカテゴリー別平均値との単相関係数が0.5を上回っているかを調べました。
    カテゴリースコア矛盾現象が起こらないカテゴリースコアとなりました。


    カテゴリースコア矛盾現象が起こらないカテゴリースコア

     コンビニエンスの売上データについて、説明変数の選択を行い、カテゴリースコア矛盾現象の起こらないカテゴリースコアを算出してみましょう。
    目的変数と説明変数との相関比を算出しました。相関比は0.25を上回っているので、全て選択します。


    説明変数相互のクラメール連関係数(相関マトリックスという)を算出しました。クラメール連関係数が最大で0.5を上回ったのは立地条件と来店者顧客満足度の0.744です。日販と立地条件の相関比は0.612、日販と来店者顧客満足度の相関比は0.569なので、相関比の低い来店者顧客満足度落とします。


    絞り込んだ説明変数で数量化1類を行い、説明変数ごとに、カテゴリースコアとカテゴリー別平均値との単相関係数が0.5を上回っているかを調べました。カテゴリースコア矛盾現象が起こらないカテゴリースコアとなりました。


    <<前のページへ      3


    最新セミナー情報

    予測入門セミナー

    予測のための基礎知識、予測の仕方、予測解析手法の活用法・結果の見方を学びます。

    マーケティングプランニング&マーケティングリサーチ入門セミナー

    マーケティングリサーチを学ぶ上で基礎・基本からの調査のステップ、機能までをわかりやすく解説しています。

    統計解析入門セミナー

    統計学、解析手法の役割から種類、概要までを学びます。

    アンケート調査表作成・集計・解析入門セミナー

    調査票の作成方法、アンケートデータの集計方法、集計結果の見方・活用方法を学びます。