《ロジスティック回帰 》

どのような手法か

ロジスティック回帰分析は、目的変数が0,1のデータ、または%のデータに用いる分析手法で、それぞれ判別分析、重回帰分析とほぼ同じ使い方となります。ロジスティック回帰分析は下記のかたちの式を導きだします。
上式のことをモデル式といいます。e は統計学で用いる定数 2.718です。


どのような質問、データに適用できるか

ロジスティック回帰分析に用いるデータは、目的変数が0,1のデータまたは%のデータ、説明変数は数量データでなければなりません。
この手法はオリジナルデータとサマリーデータの両方に適用できます。
<具体例>目的変数が0,1のデータとなる例題を示しました。
【回答データ】
解析の目的と手順


正準判別分析の主な出力内容

◆モデル式
◆理論値
◆回帰係数
◆標準回帰係数
◆Wald-square
◆P値、判定
◆判定
◆標準回帰係数
◆AIC
◆決定係数

出力結果と結果の解釈

  ① 健康状態の程度を推定するデル式を作成します。
 ② モデル式に回答データを代入し理論値(各人の健康状態の程度)を求めます。
   【理論値】
    理論値はモデル式に説明変数のデータを代入することにより算出されます。
     <例>回答者№2について理論値を算出します。
すべての回答者の理論値を算出します。
理論値は健康状態の程度を示す確率として適用できます。例えば回答者№2の健康状態が悪い確率は68%であるという使い方です。判別分析との大きな違いは確率が求められることです。

③ モデル式が予測に適用できるものであるかを吟味します。
【AIC、決定係数、判別的中率】
 AICはモデルの精度を調べる尺度です。
 AICは値が小さいほど良いモデルといえます。いくつ以下なら良いという基準はありません。
  決定係数は実績値と推定値との相関係数の2乗です。 
  0.5以上を良いモデル式とみなします。
 75%以上を良いモデル式とみなします。

④ Wさんの健康状態の程度を調べます。
良いモデル式と判断できましたので、モデル式を使ってWさんの健康状態を予測します。Wさんの健康状態が悪い確立は71%と予測されました。
⑤ 説明変数について吟味します。

  【回帰係数、Wald-square、標準回帰係数】
回帰係数はモデル式の係数です。Wald-square標準回帰係数は説明変数の目的変数への影響度を調べる尺度です。値が大きいほど影響度が高い項目といえます。P値は母集団において説明変数が有意であるかを調べる尺度です。

目的変数が%データである場合のロジスティック回帰分析

目的変数が%であるデータでロジスティック回帰分析を行ってみましょう。
緑茶を1日に飲む回数と、タバコを吸うかどうかを質問し、町別に集計をしました。
ガンによる死亡率を厚生労働省発表数値から計算しました。
死亡率=発生率と仮定してロジスティック回帰分析を適用し、ガン発生率の理論値を求めました。
理論値の算出に用いられたモデル式の係数(回帰係数)は下記の通りです。

この例題で用いたデータはすべて数量データなので、重回帰分析を適用することもできます。
ロジスティク回帰分析と重回帰分析の結果を比較してみましょう。
2つの分析結果はほぼ同じ傾向となっています。どちらを用いても構いませんが、重回帰分析では結果にマイナスの数値が出てくる可能性があります。ロジスティック回帰分析では必ずプラスの値となりますので、目的変数が%の場合にはロジスティック回帰分析を用いることをお薦めします。