n=10で結論を出すな!小さすぎるサンプルの危険性と適切なサイズの決め方

統計

上司「ユーザーテスト10人で“80%が好評”だ。ローンチいける?」

あなた「95%信頼区間は 約49〜94%
“半分以下かも”と“ほぼ全員”が、同時にあり得ます。」

— n=10 の危うさは、“結論が幅広すぎる”ことに尽きる

TL;DR(要点)
小さすぎる n は①誤差が大きい ②極端値が出やすい ③ランダム化が偏りやすい。
設計のコア式はこれだけ:
・比率の誤差±mなら n ≈ z²·p(1-p)/m²(95%→z=1.96, pが不明なら0.5)
・平均差なら n/群 ≈ 2·(zα/2+zβ)²·σ²/Δ²(95%×80%→ほぼ ≈16·(σ/Δ)²

なぜ n=10 は危ないのか(超要約)

  • 誤差がデカい:8/10=80%の95%CIは約49〜94%(Wilson)。意思決定に使うには広すぎ。
  • 極端に振れやすい:小 n は“偶然の当たりや外れ”を増幅。再現しづらい。
  • 群間不均衡が起きやすい:「たまたま重課金者が治療群に偏る」など、ランダム化が効きにくい。

まずは「感覚」を掴む:誤差の早見表(比率)

95%信頼区間の“片側誤差”を±mに抑えたいときの必要 n(p=0.5 を最悪ケースとして計算)。

目標誤差(±m)必要サンプル n(目安)使いどころ
±10%約97ざっくり傾向を掴む
±5%約385プロダクト調査の定番
±3%約1,067広告・世論調査

式:n ≈ (1.96² · 0.25) / m²。p(真の比率)が不明なら0.5が最悪(最大分散)。

A/Bテストの“超”ざっくり設計式

二群の比率差を見たいときの近似(95%×80%のとき)

n / 群 ≈ 16 · p̄(1-p̄) / Δ²
# p̄: 期待ベース率の平均,  Δ: 検出したい絶対差
ベース率 p̄検出差 Δ必要 n / 群(目安)コメント
0.20+0.02(+10%相対)約6,400小さな上げ幅は“大所帯”が要る
0.20+0.05(+25%相対)約1,024現実的なライン
0.50+0.05約1,600最大分散域は重くなる

失敗しないサンプルサイズ設計:3ステップ

  1. “何を”どれだけ正確に知りたい?
    例:解約率の95%CIを±5%で…/CVRを+2pt検出…
  2. 有意水準と検出力を決める
    ふつうは α=0.05Power=0.80(強めなら0.90)。
  3. 効果量・分散の目安を置く
    過去データ・予備調査・パイロットで p, σ, Δ を見積もる(不明なら保守的に)。

実務チート:平均差の目安は n/群 ≈ 16·(σ/Δ)²(95%×80%)。例:スコアの日内SD=20、検出したい差=5 → 16·(20/5)²=16·16=256/群

“読みたくなる”具体例:n=10の危険度を可視化

ケース:10人中8人が「良い」と回答(p̂=0.8)。

  • 95%CI(Wilson) ≈ 49%〜94%
  • 意思決定コメント:
    「80%が好評!」は誇張の恐れ。レンジを併記すべき。

n=100に増やすと…

  • 80/100 の95%CI ≈ 71%〜87%
  • 結論のブレが半分以下に。施策判断に耐えやすい。

現場で役立つ:即コピペできる“ミニ電卓”

# 比率の必要サンプル(Excel/Sheets)
# 95%CIの誤差±m(セルB2)を達成したいとき(p=0.5で最悪ケース)
=ROUNDUP((1.96^2*0.25)/(B2^2),0)

# 平均差の必要サンプル(片群)
# σ(標準偏差)=B2, 検出したい差Δ=C2、95%×80% の近似
=ROUNDUP(16*(B2/C2)^2,0)

“大きすぎる n” も罠になる

  • 資源の浪費:時間・費用・被験者の負担が膨張。
  • 無意味な差が「有意」に:nが巨大だと、実務的に無視できる差まで有意になる。
    統計的有意 ≠ 実務的意義 を常に分けて考える。

よくある誤解と対策(1分FAQ)

  • 「母集団が100万人だからサンプルも巨大に必要?」
    No。母集団が十分大きければ精度は主に n分散/比率で決まる。※ただし抽出率が高い(n/N>5%)場合は有限母集団補正を考慮。
  • 「p値が小さい=差が大きい」
    No。p値は差の大きさだけでなく n と分散にも依存。効果量とCIを併記。
  • 「大きい n なら代表性は担保される」
    No無作為抽出が前提。収集バイアスがあれば n を増やしても歪みは残る。

チェックリスト:この n で結論を出して良い?

  • 目的の誤差(±m)検出差(Δ)を言語化したか?
  • α=0.05Power=0.8など閾値を合意したか?
  • 分散・ベース率の当て(過去データ/予備調査)を置いたか?
  • 結果は点推定+CIで報告したか?
  • 実務的意義(コスト/ベネフィット)で解釈したか?

まとめ

n=10で結論は出すな。— 小さな n は“たまたま”を増幅し、誤差を大きくする。
意思決定前に、①誤差 or 検出差を宣言②α/Power を合意③式に流し込む
それだけで、議論は「感覚」から「根拠」へ一段上がります。