定義
外れ値を「切り落とす」のではなく、上位・下位で設定したパーセンタイルの値に「丸め込む」形で外れ値の影響を抑え、そこから平均を計算する手法。
特徴
Trimmed Meanと似ているが、切り捨てずに端の方の値を一定の値に置き換えるため、データ総数は変わらない。
外れ値をある閾値に押し込むことで、過度な影響を防ぎつつも、データの存在は維持する。
使いどころ
金融データなど、極端な外れ値が出やすいが完全除外はしたくない場合。
アンケートなどで少数だが明らかに異常な回答値がある状況。
応用例
上位5%の値を95%点に、下位5%の値を5%点に置き換えたうえで平均を計算し、全体傾向をつかむ。
分析者が「データを捨てたくない」時に、アウトライアを極端に減衰させる方法。
留意点
Winsorizingした割合と閾値を明示しておかないと、再現が難しい。
「どこまで外れ値を丸め込むか」の主観性が入り得るため、透明性を確保することが大事。