【入門】ゼロからわかる確率──統計の土台をやさしく解説

統計

ゼロからわかる確率入門|統計の基礎をやさしく解説

「確率」は統計・データ分析・機械学習の土台です。本記事は、初学者でもつまずかないように、日常の例→ルール→計算→直感→練習の順で整理しました。ブックマーク推奨の保存版です。

1. まずは用語:実験・標本空間・事象

  • 確率実験:サイコロを振る、コインを投げる、メールがスパムか判定する…など。
  • 標本空間(Ω):起こりうる結果の全集合。例:サイコロなら {1,2,3,4,5,6}。
  • 事象(A):興味のある出来事の集合。例:「偶数が出る」= {2,4,6}。
  • 確率 P(A):事象Aが起こる“起こりやすさ”(0~1)。0は絶対に起こらない、1は必ず起こる。

2. 確率の基本ルール(公理と基本公式)

(コルモゴロフの公理・超直訳)

  1. 0 ≤ P(A) ≤ 1
  2. P(Ω) = 1
  3. 排反(同時に起きない)なA, Bについて:P(A ∪ B) = P(A) + P(B)

2.1 同様に確からしい場合

全ての結果が同じ確からしさなら、
P(A) = 有利な場合の数 / 全場合の数

例:サイコロで偶数が出る確率 = 3/6 = 1/2。

2.2 加法定理(重なりに注意)

P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

重複を一度引くのがコツ。

2.3 余事象(補集合)

P(A^c) = 1 − P(A)
「少なくとも1回当たる」は「1回も当たらない」の補集合で解くとラク。

3. 条件付き確率と乗法則・独立

条件付き確率P(A|B) = P(A ∩ B) / P(B)(Bが起きたとわかったときのAの確率)。

乗法則P(A ∩ B) = P(A|B) P(B) = P(B|A) P(A)

独立:AとBが互いに影響しないときP(A ∩ B) = P(A)P(B)、またはP(A|B)=P(A)

4. ベイズの定理(直感と一発計算)

P(A|B) = { P(B|A) P(A) } / { P(B) }
事前確率P(A)に、尤度P(B|A)を掛け、全体のP(B)で割って更新します。

医療検査の例(有病率1%、感度99%、特異度95%)で陽性の人が本当に病気である確率:

 P(病気|+) = 0.99×0.01 / (0.99×0.01 + 0.05×0.99)
             = 0.0099 / 0.0594 ≈ 0.1667(約16.7%)

高精度な検査でも、有病率が低いと陽性的中率は意外と低くなります(ベースレートの重要性)。

5. 数え上げ:順列・組合せの要点

  • 順列(並べる):nPr = n! / (n−r)!
  • 組合せ(選ぶ):nCr = n! / { r! (n−r)! }
  • 例:52枚のトランプから5枚を選ぶ全通り:52C5

6. 代表的な確率分布(直感カタログ)

分布 場面 パラメータ 平均 分散
ベルヌーイ 1回の成功/失敗(例:当たり=1, はずれ=0) p p p(1−p)
二項 独立な試行をn回(例:n回ガチャの当たり数) n, p np np(1−p)
ポアソン 一定時間/面積あたりの稀な発生回数 λ λ λ
一様(連続) 区間内で等可能性 a, b (a+b)/2 (b−a)^2/12
正規(ガウス) 誤差の和・身長など“中心に山” μ, σ² μ σ²

豆知識:nが大きくpが小さい二項分布は、近似的にポアソン(λ=np)になります。

7. 期待値・分散:平均と散らばり

期待値(平均):E[X] = Σ x·P(X=x)(離散)
分散(散らばり):Var(X) = E[(X−μ)^2] = E[X^2] − μ^2

性質:E[aX+b] = aE[X] + bVar(aX+b) = a^2 Var(X)

8. よくある勘違い・落とし穴

  • 独立 ≠ 排反:排反(同時不可)ならP(A∩B)=0。独立はP(A∩B)=P(A)P(B)。
  • 条件付きと因果を混同しない:P(雨|傘)が高くても、傘が雨を“起こす”わけではない。
  • ベースレート無視:めったに起きない事象の陽性は偽陽性の影響を大きく受ける。
  • シンプソンのパラドックス:グループ分けで結論が逆転することがある。条件を確認しよう。

9. 練習問題(答え付き)

Q1:サイコロ2個で和が7

確率は?

答えを見る

有利な組合せ: (1,6),(2,5),(3,4),(4,3),(5,2),(6,1) の6通り。全体36通りなので 6/36 = 1/6

Q2:少なくとも1回当たる

当たる確率pの抽選を独立に3回。少なくとも1回当たる確率は?

答えを見る

補集合で:1回も当たらない確率は (1−p)^3。よって 1 − (1−p)^3

Q3:条件付き確率

箱に赤3・青2の玉。1個引いて戻さず、続けて1個引く。2個とも赤の確率は?

答えを見る

P(1個目赤)=3/5、P(2個目赤|1個目赤)=2/4。掛けて (3/5)×(2/4)=3/10

Q4:陽性時の実確率

有病率1%、感度99%、特異度95%の検査。陽性の人が本当に病気である確率は?

答えを見る

ベイズで 約16.7%(計算は本文参照)。

10. チートシート(主要公式まとめ)

  • 加法:P(A ∪ B) = P(A)+P(B)−P(A ∩ B)
  • 補:P(A^c) = 1−P(A)
  • 条件:P(A|B) = P(A ∩ B)/P(B)
  • 乗法:P(A ∩ B) = P(A|B)P(B)
  • 独立:P(A ∩ B) = P(A)P(B)
  • 全確率:P(B) = Σ P(B|A_i)P(A_i)
  • ベイズ:P(A|B) = P(B|A)P(A)/P(B)
  • 順列:nPr = n!/(n−r)!、組合せ:nCr = n!/(r!(n−r)!)
  • 期待値:E[X] = Σ x·P(X=x)、分散:Var(X) = E[X^2] − (E[X])^2

次ステップ:推定・検定(t検定、信頼区間)や、正規近似/中心極限定理へ進むと“統計の地図”がつながります。

執筆メモ: 本記事は初学者向けに、直感→公式→計算の順で最短理解をめざしています。引用・社内勉強会配布などご自由にどうぞ(要出典)。