ゼロからわかる確率入門|統計の基礎をやさしく解説
「確率」は統計・データ分析・機械学習の土台です。本記事は、初学者でもつまずかないように、日常の例→ルール→計算→直感→練習の順で整理しました。ブックマーク推奨の保存版です。
1. まずは用語:実験・標本空間・事象
- 確率実験:サイコロを振る、コインを投げる、メールがスパムか判定する…など。
- 標本空間(Ω):起こりうる結果の全集合。例:サイコロなら {1,2,3,4,5,6}。
- 事象(A):興味のある出来事の集合。例:「偶数が出る」= {2,4,6}。
- 確率 P(A):事象Aが起こる“起こりやすさ”(0~1)。0は絶対に起こらない、1は必ず起こる。
2. 確率の基本ルール(公理と基本公式)
(コルモゴロフの公理・超直訳)
- 0 ≤ P(A) ≤ 1
- P(Ω) = 1
- 排反(同時に起きない)なA, Bについて:P(A ∪ B) = P(A) + P(B)
2.1 同様に確からしい場合
全ての結果が同じ確からしさなら、P(A) = 有利な場合の数 / 全場合の数
例:サイコロで偶数が出る確率 = 3/6 = 1/2。
2.2 加法定理(重なりに注意)
P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
重複を一度引くのがコツ。
2.3 余事象(補集合)
P(A^c) = 1 − P(A)
。
「少なくとも1回当たる」は「1回も当たらない」の補集合で解くとラク。
3. 条件付き確率と乗法則・独立
条件付き確率:P(A|B) = P(A ∩ B) / P(B)
(Bが起きたとわかったときのAの確率)。
乗法則:P(A ∩ B) = P(A|B) P(B) = P(B|A) P(A)
独立:AとBが互いに影響しないときP(A ∩ B) = P(A)P(B)
、またはP(A|B)=P(A)
。
4. ベイズの定理(直感と一発計算)
P(A|B) = { P(B|A) P(A) } / { P(B) }
。
事前確率P(A)に、尤度P(B|A)を掛け、全体のP(B)で割って更新します。
医療検査の例(有病率1%、感度99%、特異度95%)で陽性の人が本当に病気である確率:
P(病気|+) = 0.99×0.01 / (0.99×0.01 + 0.05×0.99) = 0.0099 / 0.0594 ≈ 0.1667(約16.7%)
高精度な検査でも、有病率が低いと陽性的中率は意外と低くなります(ベースレートの重要性)。
5. 数え上げ:順列・組合せの要点
- 順列(並べる):
nPr = n! / (n−r)!
- 組合せ(選ぶ):
nCr = n! / { r! (n−r)! }
- 例:52枚のトランプから5枚を選ぶ全通り:
52C5
6. 代表的な確率分布(直感カタログ)
分布 | 場面 | パラメータ | 平均 | 分散 |
---|---|---|---|---|
ベルヌーイ | 1回の成功/失敗(例:当たり=1, はずれ=0) | p | p | p(1−p) |
二項 | 独立な試行をn回(例:n回ガチャの当たり数) | n, p | np | np(1−p) |
ポアソン | 一定時間/面積あたりの稀な発生回数 | λ | λ | λ |
一様(連続) | 区間内で等可能性 | a, b | (a+b)/2 | (b−a)^2/12 |
正規(ガウス) | 誤差の和・身長など“中心に山” | μ, σ² | μ | σ² |
豆知識:nが大きくpが小さい二項分布は、近似的にポアソン(λ=np)になります。
7. 期待値・分散:平均と散らばり
期待値(平均):E[X] = Σ x·P(X=x)
(離散)
分散(散らばり):Var(X) = E[(X−μ)^2] = E[X^2] − μ^2
性質:E[aX+b] = aE[X] + b
、Var(aX+b) = a^2 Var(X)
。
8. よくある勘違い・落とし穴
- 独立 ≠ 排反:排反(同時不可)ならP(A∩B)=0。独立はP(A∩B)=P(A)P(B)。
- 条件付きと因果を混同しない:P(雨|傘)が高くても、傘が雨を“起こす”わけではない。
- ベースレート無視:めったに起きない事象の陽性は偽陽性の影響を大きく受ける。
- シンプソンのパラドックス:グループ分けで結論が逆転することがある。条件を確認しよう。
9. 練習問題(答え付き)
Q1:サイコロ2個で和が7
確率は?
答えを見る
有利な組合せ: (1,6),(2,5),(3,4),(4,3),(5,2),(6,1) の6通り。全体36通りなので 6/36 = 1/6。
Q2:少なくとも1回当たる
当たる確率pの抽選を独立に3回。少なくとも1回当たる確率は?
答えを見る
補集合で:1回も当たらない確率は (1−p)^3。よって 1 − (1−p)^3。
Q3:条件付き確率
箱に赤3・青2の玉。1個引いて戻さず、続けて1個引く。2個とも赤の確率は?
答えを見る
P(1個目赤)=3/5、P(2個目赤|1個目赤)=2/4。掛けて (3/5)×(2/4)=3/10。
Q4:陽性時の実確率
有病率1%、感度99%、特異度95%の検査。陽性の人が本当に病気である確率は?
答えを見る
ベイズで 約16.7%(計算は本文参照)。
10. チートシート(主要公式まとめ)
- 加法:
P(A ∪ B) = P(A)+P(B)−P(A ∩ B)
- 補:
P(A^c) = 1−P(A)
- 条件:
P(A|B) = P(A ∩ B)/P(B)
- 乗法:
P(A ∩ B) = P(A|B)P(B)
- 独立:
P(A ∩ B) = P(A)P(B)
- 全確率:
P(B) = Σ P(B|A_i)P(A_i)
- ベイズ:
P(A|B) = P(B|A)P(A)/P(B)
- 順列:
nPr = n!/(n−r)!
、組合せ:nCr = n!/(r!(n−r)!)
- 期待値:
E[X] = Σ x·P(X=x)
、分散:Var(X) = E[X^2] − (E[X])^2
次ステップ:推定・検定(t検定、信頼区間)や、正規近似/中心極限定理へ進むと“統計の地図”がつながります。