《重回帰分析(3/3) 》

2. 重回帰分析の応用/説明変数の選択方法

係数矛盾現象が起こる例題

 ある会社では毎年期末に、営業担当者の成績等を踏まえて貢献手当てを支払っています。金額の査定は営業部長の経験から決めていましたが、その査定基準に不満意見があり、本年から査定基準を明確にすることにしました。
 右記は昨年の営業担当者40人の貢献手当てと営業活動の成果を示したものです。このデータに重回帰分析を適用し、貢献手当て算定のモデルを作ることにしました。





















係数矛盾現象

 右記のA表に、重回帰分析より得られた回帰係数、目的変数である貢献手当てと各説明変数との単相関係数の結果を示しました。
 回帰係数の符号(プラス、マイナス)と単相関係数の符号が一致していない説明変数があるとき、「係数矛盾現象」が起こったといいます。
 重回帰分析で唯一難しいところは、この現象が起こった時の対処です。理論的に難しいのではなく、この現象を起こさないように重回帰分析をしなければならないと言うところが難しいところになります。
 回帰係数を見ると、顧客数の係数がマイナスになっています。係数がマイナスになったこと自体が問題なのではありません。マイナスになったと言うことの意味を吟味する必要があります。
 顧客数と貢献手当ての単相関係数をみるとプラスになっています。単相関係数がプラスということは、顧客数が多いほど貢献手当ては多くなるとうことです。それにも関わらず、顧客数の回帰係数がマイナスになっていると言うことは、顧客数は貢献手当てにマイナスに寄与しているという矛盾した関係を示しています。右のB表に、各説明変数の貢献手当てに対する貢献度を示しましたが、同様に顧客数1件増加すると貢献手当ては1,690円減少するという矛盾した結果となっています。
 係数矛盾現象は説明変数相互の相関が高い場合に起きる現象です。つまり、この場合では顧客数と売上額の相関が高いため、数学的に両者は同じデータと認識されたのです。
 説明変数相互に高い相関が認められる場合は、係数符号の逆転現象が起きていないかどうかよく見極める必要があります。

説明変数の選択方法

 係数矛盾現象が起こらない関係式を得るには、どのような説明変数を用いるかによって決まります。せっかく良いデータがあっても、説明変数の選択方法を知らないために、良くない重回帰式を算出している人がいます。ぜひ次に述べる事柄を理解し、素晴らしい重回帰式を求めてください。
 目的変数と相関の高い変数を説明変数にします。単相関係数を用い、相関が0.5以上のものを説明変数にするのが一般的です。0.5という値は、必ずしも絶対的なものではなく、1つの目安です。先生の場合、0.3とかなり低い値を設定して、説明変数を多めにとり、次の方法で絞り込みを行っています。
 ここで選ばれた説明変数の中から、次の方法によって説明変数の絞り込みを行います。

 <統計学の理論的立場から説明変数を選択>

説明変数相互で相関の高い変数を探し、どちらかの変数を落とします。
 具体的には相関が0.7以上のときは、どちらかを落とします。この値も1つの目安です。落とし方は、落とす候補になった変数と目的変数との相関をそれぞれ調べて、相関の低い方を落とします。
 下記の例では、X1とX2との相関が高いので、どちらかを落とすことになります。 YとX1、YとX2の相関を比べるとYとX2の方が低いので、X2を落とします
データが全て同じ値の説明変数は落とします。
 アンケート調査で段階評価(1.良い  2.どちらともいえない  3.悪い)を説明変数とした場合などに、全員が「2.どちらともいえない」に回答する、といったことがまれにあります。この場合、この変数のデータはすべて「2」となり、この変数は重回帰分析に使えません。データがすべて同じだと標準偏差が0になるので、重回帰分析を行う前に標準偏差を計算してチェックし、標準偏差0の変数は落としてください

<統計学的の理論的立場ではなく、分析者の判断から説明変数を選択>

将来設定ができない説明変数を落とします。
具体例を紹介します。
 いま、ある売上予測を行うために、広告費、営業担当者数、他社競合商品の売上額を説明変数にとり、重回帰分析を行ったところ、決定係数が0.9となる重回帰式を求めることができました。さっそくこの式を用いて来年度の売上予測を行うことにしました。ところが、広告費、営業担当者数については来年度の設定ができたものの、競合商品の売上額は来年度どうなるかわからず、先へ進むことができませんでした。
 このような結果を避けるために、重回帰分析を予測に使う場合、将来設定ができない説明変数は用いないことが一般的です。ただし、"競合商品の売上額がいくらまで上がると、我社の売上額がこれだけ下がる"といったシミュレーション分析を行う場合は、将来設定ができない説明変数を意図的に用いることもあります。

施策上不必要とした説明変数を落とします。
 貢献手当ての学歴は給与の基本給には反映されても営業成績に反映されるものでないと判断し、学歴は落としました。


係数矛盾現象の起こらない重回帰式

貢献手当の説明変数の選択を次の手順で行いました。
学歴を落としました。
目的変数と説明変数との相関係数を算出します。
   説明変数と貢献手当ての相関は、絶対値で0.3を上回っているので、全て選択します。
 説明変数相互の相関係数(相関マトリックスという)を算出します。
   説明変数相互の相関の絶対値で0.7以上は、売上額と顧客数です。売上額と貢献手当ての相関は0.680、顧客数と貢献手当ての相関は0.626なので、相関の低い顧客数を落とします。
 絞り込んだ説明変数で重回帰式を求め、回帰係数と単相関係数との符号チェックをしました。係数矛盾現象が起こらない重回帰式となりました。
<絞り込んだ説明変数で重回帰分析を行った結果>
重回帰式の検討

 右のA表で、各説明変数について、営業成績up分の貢献手当てを明らかにしました。







 右のB表で、貢献手当てを定める(高める)のに重要な要素は何かを調べました。売上額が最も重要で、次に担当顧客からのクレーム回数が続きます。入社暦の重要度は最下位となりました。
 決定係数は0.938で基準の0.5を大きく上回り、貢献手当て算出のモデル式としては充分使えるものだと判断しました。




右のC表で、説明変数のデータの最大値と最小値を示しました。説明変数全てで最大値、最小値の成績を取った場合の貢献手当てを、重回帰式より試算すると42万円と-9万円になりました。
赤池の情報量基準(AIC)

赤池の情報量基準(AIC)は、モデルのあてはまり度を表す統計量です。値が小さいほどあてはまりが良いとされますが、相対的な評価として用いるため、「●●以下であることが望ましい」という基準はありません。
AICを求める式を示します。


ここでnはサンプルサイズ、pは説明変数の個数、Seは残差平方和、logは自然対数です。
注  
式から分かるように、説明変数の個数が少なく、Seが小さいほど、AICは小さくなります。
複数の重回帰分析を行い、どの関係式を選ぶかを判断するとき、AICが最小の関係式を選択します。