カットオフ値・ROC曲線
◆カットオフ値・ROC曲線◆
カットオフ値とは
与えられた値から真(TRUE)か偽(FALSE)かを判断したいことがあります。
例えば模擬試験の点数から○○大学に合格(T)か不合格(F)かを予測したい、検査値から病気(T)か健康(F)かを判断したいなどです。
カットオフ値(cutoff value)とは、定量データを区切るために用いる基準の値のことです。医療分野に絞って言えば、ある検査の陽性、陰性を分ける値のことで、病態識別値とも呼ばれます。検査結果によって、特定の疾患に罹患した患者と罹患していない患者を分ける境界値のことです。
いくつかの事例を示します。
① 肥満を判定するBMIのカットオフ値は30以上である。
② 大腸がんをスクリーニングする便潜血検査のカットオフ値は、約100 ng/mlである。
③ 日本動脈硬化学会によって設定された、高コレステロール血症の診断基準、総コレステロールは220 mg/dl 以上である。
①について、補足します。
肥満は健康に重大な悪影響を及ぼします。肥満指数(BMI)は体重(kg)を身長(m)の二乗で割って算出され、測定・計算が簡単で、肥満・痩せの指標として広く使われており、その水準が健康リスクや死亡率と深く関係していることが海外の多くの研究で報告されています。WHOでは国際的な基準(カットオフ値)として、BMIは25以上を過体重、30以上を肥満としました。
BMI(kg/㎡)=体重(kg)÷身長(m)÷身長(m)
真陽性、偽陽性、偽陰性、真陰性とは
過体重であるかどうかのカットオッフ値は25ですが、ある生活習慣病をスクリーニングするBMIのカットオフ値は25とは限りません。
そこである生活習慣病のBMIのカットオフ値を算出るために、ある病院に来院した患者20人に次の検査をしました。
表1:BMIの検査結果と、ある生活習慣病の疾病有無(陽性、陰性)を調べたデータです。
表2:表1のデータを陽性・陰性別にBMIを降順で並べ替えました。
表3:表2のデータについて、陽性・陰性別BMI数値別に患者人数を集計したものです。
このデータにおけるカットオフ値を求めることが課題ですが、とりあえず、カットオフ値を27とします。
そこでBMI27以上、27未満別の陽性・陰性別の患者人数を集計しました。
表4の四つのセルの値は、表5に示す名前が付けられています。
真陽性(A):実際に疾患がある人が陽性と判断されること
偽陽性(B):実際には疾患がない人が陽性と判断されること
偽陰性(C):実際に疾患がある人が陰性と判断されること
真陰性(D):実際には疾患がない人が陰性と判断されること
感度、特異度とは
表4について特異度を求めると、13÷(13+1)=0.929(92.9%)です。
理想的なカットオフ値とは、検査陽性者(BMI検査で陽性と判定された患者)は皆疾患(疾病有無で陽性の患者)があり、検査陰性者は皆疾患がないと判定できる検査です。しかし現実的にはどのようなカットオフ値を設定しても、疾患があるが陰性と判定(偽陰性)、疾患がないが陽性と判定(偽陽性)される患者が出現します。したがって適正なカットオフ値は、偽陰性および偽陽性と判定される患者が少なくなるように定められる検査です。裏返せば真陽性及び真陰性と判定される患者が多くなるカットオフ値が適正だということです。
表4における真陽性は3人、真陰性は13人です。
真陽性が多いかの判断は、「疾患がある患者のうち検査陽性者がどれほどいるかの割合(真陽性者÷疾病有無陽性者)」で調べることができます。求められた値を感度といいます。
表5の単語名を使って感度を求める式を示します。
表4について感度を求めると、3÷(3+3)=0.5(50%)です。
真陰性が多いかの判断は、「疾患がない患者のうち検査陰性者がどれほどいるかの割合(真陰性者÷疾病有無陰性者)」で調べることができます。求められた値を特異度といいます。
表5の単語名を使って特異度を求める式を示します。
感度、特異度の両方が大きければ、設定したカットオフ値は良いといえます。
このケースは、特異度(92.9%)は大きいが、感度(50%)は大きいといえません。27以上に設定したカットオフ値は適正といえません。
カットオフ値を26以上として、表3のデータについて、陽性・陰性別の患者人数を集計しました。
表6について感度と特異度を求めます。
感度、特異度の両方が大きいので、設定したカットオフ値26以上は適正といえそうです。
カットオフ値27以上と26以上について検討しましたが、その他のカットオフ値全てについて感度、特異度を求め、どのカットオフ値が適正化を調べなければなりません。
感度、特異度どちらも高いのはBMI26以上で、この生活習慣病の疾病有無有無を判定するBMIのカットオフ値は26以上であるといえます。
カットオフ値を算出する方法の種類
カットオフ値を算出するための方法は、今まで述べてきたものとは別の方法もあります。3つほど紹介します。
ⅰ 感度・特異度最小値法(今まで述べてきた方法)
ⅱ 2×2分割表のクラメール連関係数
ⅲ ROC解析
2×2分割表のクラメール連関係数
2×2分割表を次とします。
クラメール連関係数は次式によって求められます。
2×2分割表において、真陽性(A)と真陰性(D)が大きく、偽陽性(B)と偽陰性(C)が小さくなるほど、クラメール連関係数は大きな値になります。値は0~1の間に収まります。
BMI26分割表についてクラメール連関係数を求めます。
7
BMI検査値を21~30に変化させ、クラメール連関係数を算出します。
クラメール連関係数の最大値は0.762です。そのBMIは26です。最適なカットオフ値は26です。
ROC解析
ROC解析について説明します。
ROC曲線は第2次世界大戦中にレーダーの性能評価をするために開発されました。現在では、工業、医療など様々な分野で利用されています。ROCはReceiver operating characteristicの略です。
ROC解析は、カットオフ値を連続的に変化(例題では30~21)させたときの、感度と100%から特異度を引いた値(1-特異度)を用います。
縦軸(y軸)を感度とし、横軸(x軸)を1-特異度とするグラフ上に、感度および1-特異度をプロットして、グラフを作成します。こうして描かれた曲線が「ROC曲線」です。
例題におけるROC曲線のグラフを示します。
ROC曲線を用いて、最適なカットオフ値の求め方を示します。二つの方法があります。
【方法①】
グラフの左上隅の起点座標(0%,100%)から点までの距離が最小の検査結果が最適なカットオフ値です。
例題は、横軸7.1%、縦軸83.3%の点まで距離が18.1%で最小です。そのBMIは26です。最適なカットオフ値は26です。
【方法②】
点座標(0% , 0%)と点座標(100% ,100%)を結ぶ直線を引きます。点から直線までの距離を求めます。距離が最大の検査結果が最適なカットオフ値です。
例題は、横軸7.1%、縦軸83.3%の点から直線まで距離が53.9%で最大です。そのBMIは26です。最適なカットオフ値は26です。
用いる方法によっては、求めた最適なカットオフ値が異なることがあります。どれを選ぶかは分析者の判断に委ねます。
検査の有用性を調べる方法について
検査は、どれくらい有用性があるのかを調べる方法を説明するために、二つのケースを示します。
<ケース1>
BMI26以上の10人は全員が陽性、BMI26未満の10人は全員が陰性です。検査陽性者(BMI検査で陽性と判定された患者)は皆疾患(疾病有無で陽性の患者)があり、検査陰性者は皆疾患がないと判定できる検査です。
クラメール連関数の最大は1.000で当然ながらカットオフ値は26です。
ROC曲線を描きました。曲線で囲まれる面積は1(100%)となります。
陽性と陰性を完璧に分ける理想的な検査の面積は100%となります。
<ケース2>
疾患有無で陰性10人のBMI検査は21~30です。陽性10人のBMI検査も21~30で、どのカットオフ値も陽性と陰性を判別することができていません。
ROC曲線を描きました。曲線で囲まれる面積は0.5(50%)となります。
陽性と陰性を全く判別できない検査における面積は50%となります
AUC
面積をAUC(Area Under the Curve)といいます。
AUCとは、ROC曲線の下側の⾯積のことです。AUCはある検査が、どれくらい有用性があるのかを調べる指標です。
先の例から分かるように、陽性と陰性を全く判別できない検査のときにAUCが0.50(50%)になり、陽性と陰性をきちんと判別できる検査のときにAUCは1(100%)になります。
表1のAUCを示します。
AUCは92.3%で100%に近く有用性のある検査といえます。
この検査が母集団についても有用性があるかは1群母比率検定で調べることができます。
帰無仮説:AUCは0.5(50%)である。
対立仮設:AUCは0.5(50%)より大きい。(片側検定)
p値をExcel関数で求められます。
=1-NORMSDIST(検定統計量) ⇒ 0.0001
p値<0.05より、BMI検査は有用な検査であるといえる
統計的推定・検定の手法別解説
統計解析メニュー
最新セミナー情報
予測入門セミナー
予測のための基礎知識、予測の仕方、予測解析手法の活用法・結果の見方を学びます。
マーケティングプランニング&マーケティングリサーチ入門セミナー
マーケティングリサーチを学ぶ上で基礎・基本からの調査のステップ、機能までをわかりやすく解説しています。
統計解析入門セミナー
統計学、解析手法の役割から種類、概要までを学びます。
アンケート調査表作成・集計・解析入門セミナー
調査票の作成方法、アンケートデータの集計方法、集計結果の見方・活用方法を学びます。