定義
ジョン・テューキーにより提唱された「データに先入観なく向き合い、可視化・要約・グラフィカルな手法を駆使してパターンや特徴を探索するアプローチ」。
特徴
ヒストグラム、箱ひげ図、散布図など多彩な記述統計ツールを駆使し、データの特性を把握しながら仮説を生成するプロセス。
解析者が柔軟に視点を変えながら、データの持つ情報を深掘りする。
使いどころ
大規模なデータセットをいきなり建てた仮説で絞るのではなく、まずは全体を俯瞰して特徴や異常を見出す。
データサイエンスや機械学習でも、前処理や特徴量設計の初期段階で多用される。
応用例
新商品アンケート結果をまずは可視化し、全体像を把握したうえで、興味深い傾向があれば深堀り分析へ進む。
データ中の異常なパターンや想定外のクラスタを発見。
留意点
あくまで探索が目的であり、EDAだけで因果関係や統計的有意性を断定するものではない。
多様な可視化技法を繰り返すため、ツールや知識の習得が必要。