◆外れ値◆

1. 箱ひげ図による外れ値の検出

 集団に属するデータにおいて、値の大きい(小さい)データがあるとき、このデータは他と比べて極端に大(小)といえた場合、このデータを「外れ値」とします。
 データが正規分布に従っていることが分からない場合は箱ひげ図を、正規性が分かっているときは、次ページで示すスミルノフ・グラブス検定を用いて分析します。
 箱ひげ図を用いる場合、上内境界点より大、あるいは下内境界点より小のデータを外れ値とします。

箱ひげ図とは
 箱ひげ図は、データを視覚的に要約するためのグラフ。
 箱ひげ図は下図に示す7つの統計量をグラフにしたものである。

上側ヒンジ:第3四分位点

下側ヒンジ:第1四分位点

ヒンジ幅=四分位偏差=第3四分位点-第1四分位点
 注. 第1四分位点、第3四分位点は「パーセンタイル・四分位偏差」で解説

下内境界点の計算値=下側ヒンジ-ヒンジ幅×1.5
下内境界点:上記式によって求めた計算値とデータの最小値とを比較し、
  計算値<最小値であれば、下内境界点は最小値、
  計算値>最小値であれば、下内境界点は計算値とする。

上内境界点の計算値=上側ヒンジ+ヒンジ幅×1.5
上内境界点:上記式によって求めた計算値とデータの最大値とを比較し、
  計算値>最大値であれば、上内境界点は最大値、
  計算値<最大値であれば、下内境界点は計算値とする。

例題
次のデータは、ある会社のA支店における30歳未満社員の月給を示したものです。このデータの箱ひげ図を作成よ。
解答
データを並べ替えてから計算する。

四分位偏差=第3四分位-第1四分位=36.25-23.75=12.5 ヒンジ幅=12.5


箱ひげ図


外れ値
  上内境界点より大きいデータ、下内境界点より小さいデータが外れ値である。
  月給80万円>上内境界点=55万円より、外れ値である。

2. スミルノフ・グラブス検定

 データが正規分布に従っていると判断できたとき、スミルノフ・グラブス検定により外れ値を検出できます。

        スミルノフ・グラブス検定:Smirnov grubbs’ test

次に求める基準点S0と比べTS0なら最大値(あるいは最小値)は外れ値と判断します

【Excel関数での求め方】

  Excelの任意のセルで  =tinv(2P/n,n-2)を入力しEnterキーを押す。

この値はExcelの関数で求められます。求め方は例題で示します。 



例題
 ある会社のA支店における30歳未満社員の月給のデータ(前に記載)について、スミルノフ・グラブス検定を用い外れ値を検出しなさい。

解答
データを大きい順に並べ替えます。

●結論  外れ値は15のみ