はじめに
統計学を学ぶ上で最も重要な概念の一つが「中心極限定理」です。この定理は、データ分析や機械学習の基礎となる重要な理論ですが、数式だけで理解するのは難しいものです。
この記事では、身近なサイコロ投げ実験を通じて、中心極限定理を直感的に理解できるよう解説します。数学が苦手な方でも、実際の例を見ながら自然に理解できるはずです。
中心極限定理とは?
中心極限定理とは、「どんな分布でも、標本の平均を多数集めると、その分布は正規分布(ベルカーブ)に近づく」という統計学の基本定理です。
重要なポイント
- 元のデータがどんな分布でも適用される
- 標本サイズが大きくなるほど正規分布に近づく
- 実際の分析で広く活用される
サイコロ投げ実験で理解する
実験の設定
1つのサイコロを投げた時の出目は1から6まで、どの数字も等しい確率(1/6)で出現します。これは「一様分布」と呼ばれる分布です。
単発のサイコロ投げ
サイコロを1回投げた結果は:
- 各面(1〜6)が出る確率:1/6 = 16.67%
- 平均値:3.5
- 分布の形:完全に平らな一様分布
2個のサイコロの平均
2個のサイコロを同時に投げ、その平均を計算してみましょう。
可能な平均値と確率:
- 平均1.0:(1,1) → 1/36
- 平均1.5:(1,2), (2,1) → 2/36
- 平均2.0:(1,3), (2,2), (3,1) → 3/36
- 平均2.5:(1,4), (2,3), (3,2), (4,1) → 4/36
- 平均3.0:(1,5), (2,4), (3,3), (4,2), (5,1) → 5/36
- 平均3.5:(1,6), (2,5), (3,4), (4,3), (5,2), (6,1) → 6/36
すでに中央(3.5)に向かって山のような形になっています。
サイコロの数を増やすと…
サイコロの数を3個、4個、10個、100個と増やしていくと:
- 3個の場合:より明確な山型の分布
- 10個の場合:正規分布にかなり近い形
- 100個の場合:ほぼ完璧な正規分布
なぜ正規分布になるのか?
直感的な説明
極端な平均値(とても大きい、とても小さい)になるには、すべてのサイコロが同じような極端な値を出さなければなりません。これは確率的に非常に低いことです。
一方、平均的な値(3.5付近)になるには、大きい値と小さい値が混在すれば良いため、確率的に高くなります。
数学的な背景
中心極限定理が成立する理由:
- 独立な確率変数の和は、個々の分布に関係なく正規分布に近づく
- 平均は和を定数で割ったものなので、同様に正規分布に近づく
- 標本サイズが大きくなるほど、この近似の精度が向上する
実際の応用例
品質管理
製造業では、製品の品質データが中心極限定理に基づいて分析されます。
世論調査
少数のサンプルから全体の傾向を推測する際に活用されます。
金融分析
株価の変動やリスク評価に応用されています。
中心極限定理の条件
必要な条件
- 独立性:各観測値が互いに独立している
- 同一分布:同じ分布から抽出されている
- 有限の分散:元の分布の分散が有限である
標本サイズの目安
- 一般的に n≥30 で近似が良好
- 元の分布が正規分布に近い場合は、より小さなサンプルでも適用可能
- 元の分布が極端に偏っている場合は、より大きなサンプルが必要
まとめ
中心極限定理は、統計学の基礎となる重要な概念です。サイコロ投げ実験を通じて見てきたように、どんな分布でも標本平均を多数集めると正規分布に近づきます。
覚えておくべきポイント
- 元のデータの分布に関係なく成立する
- 標本サイズが大きいほど正規分布に近づく
- 実際のデータ分析で広く活用される基本原理
この理解を基に、より高度な統計分析や機械学習の学習に進むことができるでしょう。
次のステップ
中心極限定理を理解したら、次は以下の概念を学ぶことをお勧めします:
- 信頼区間の計算
- 仮説検定の基礎
- 統計的推定の方法
統計学の世界をさらに深く探求していきましょう。