Exploratory Data Analysis(EDA) / 探索的データ解析

定義

ジョン・テューキーにより提唱された「データに先入観なく向き合い、可視化・要約・グラフィカルな手法を駆使してパターンや特徴を探索するアプローチ」。

特徴

ヒストグラム、箱ひげ図、散布図など多彩な記述統計ツールを駆使し、データの特性を把握しながら仮説を生成するプロセス。

解析者が柔軟に視点を変えながら、データの持つ情報を深掘りする。

使いどころ

大規模なデータセットをいきなり建てた仮説で絞るのではなく、まずは全体を俯瞰して特徴や異常を見出す。

データサイエンスや機械学習でも、前処理や特徴量設計の初期段階で多用される。

応用例

新商品アンケート結果をまずは可視化し、全体像を把握したうえで、興味深い傾向があれば深堀り分析へ進む。

データ中の異常なパターンや想定外のクラスタを発見。

留意点

あくまで探索が目的であり、EDAだけで因果関係や統計的有意性を断定するものではない。

多様な可視化技法を繰り返すため、ツールや知識の習得が必要。

  • URLをコピーしました!
  • URLをコピーしました!
目次