定義
データをある程度の階級(クラス)にグループ化した度数分布(Grouped Data)を使って計算する統計量。
例えば「階級値(代表値)」×「度数」で近似的に平均や分散を求める。
特徴
大量データを扱いやすくする目的で、生データではなく度数分布表をもとに計算。
厳密な値ではなく、あくまで「近似値」として扱う。
使いどころ
生データが手元になく、度数分布しか得られない場合。
計算量を軽減したい場合や、統計教材で練習として用いられることも多い。
応用例
大規模な調査データを「0〜9歳、10〜19歳…」のように年齢階級別に集計し、その近似平均・近似分散を算出。
ヒストグラムを作成した階級から平均や標準偏差の概算を求める。
留意点
あくまでも近似値のため、グループ化の仕方によって誤差が大きくなる可能性がある。
階級幅が大きすぎる場合、分布の細かい特性を失う。