Winsorized Mean(ウィンズライズ平均)

定義

外れ値を「切り落とす」のではなく、上位・下位で設定したパーセンタイルの値に「丸め込む」形で外れ値の影響を抑え、そこから平均を計算する手法。

特徴

Trimmed Meanと似ているが、切り捨てずに端の方の値を一定の値に置き換えるため、データ総数は変わらない。

外れ値をある閾値に押し込むことで、過度な影響を防ぎつつも、データの存在は維持する。

使いどころ

金融データなど、極端な外れ値が出やすいが完全除外はしたくない場合。

アンケートなどで少数だが明らかに異常な回答値がある状況。

応用例

上位5%の値を95%点に、下位5%の値を5%点に置き換えたうえで平均を計算し、全体傾向をつかむ。

分析者が「データを捨てたくない」時に、アウトライアを極端に減衰させる方法。

留意点

Winsorizingした割合と閾値を明示しておかないと、再現が難しい。

「どこまで外れ値を丸め込むか」の主観性が入り得るため、透明性を確保することが大事。

  • URLをコピーしました!
  • URLをコピーしました!
目次