上司「ユーザーテスト10人で“80%が好評”だ。ローンチいける?」
— n=10 の危うさは、“結論が幅広すぎる”ことに尽きる
あなた「95%信頼区間は 約49〜94%。
“半分以下かも”と“ほぼ全員”が、同時にあり得ます。」
TL;DR(要点):
小さすぎる n は①誤差が大きい ②極端値が出やすい ③ランダム化が偏りやすい。
設計のコア式はこれだけ:
・比率の誤差±mなら n ≈ z²·p(1-p)/m²
(95%→z=1.96, pが不明なら0.5)
・平均差なら n/群 ≈ 2·(zα/2+zβ)²·σ²/Δ²
(95%×80%→ほぼ ≈16·(σ/Δ)²
)
なぜ n=10 は危ないのか(超要約)
- 誤差がデカい:8/10=80%の95%CIは約49〜94%(Wilson)。意思決定に使うには広すぎ。
- 極端に振れやすい:小 n は“偶然の当たりや外れ”を増幅。再現しづらい。
- 群間不均衡が起きやすい:「たまたま重課金者が治療群に偏る」など、ランダム化が効きにくい。
まずは「感覚」を掴む:誤差の早見表(比率)
95%信頼区間の“片側誤差”を±mに抑えたいときの必要 n(p=0.5 を最悪ケースとして計算)。
目標誤差(±m) | 必要サンプル n(目安) | 使いどころ |
---|---|---|
±10% | 約97 | ざっくり傾向を掴む |
±5% | 約385 | プロダクト調査の定番 |
±3% | 約1,067 | 広告・世論調査 |
式:n ≈ (1.96² · 0.25) / m²
。p(真の比率)が不明なら0.5が最悪(最大分散)。
A/Bテストの“超”ざっくり設計式
二群の比率差を見たいときの近似(95%×80%のとき)
n / 群 ≈ 16 · p̄(1-p̄) / Δ²
# p̄: 期待ベース率の平均, Δ: 検出したい絶対差
ベース率 p̄ | 検出差 Δ | 必要 n / 群(目安) | コメント |
---|---|---|---|
0.20 | +0.02(+10%相対) | 約6,400 | 小さな上げ幅は“大所帯”が要る |
0.20 | +0.05(+25%相対) | 約1,024 | 現実的なライン |
0.50 | +0.05 | 約1,600 | 最大分散域は重くなる |
失敗しないサンプルサイズ設計:3ステップ
- “何を”どれだけ正確に知りたい?
例:解約率の95%CIを±5%で…/CVRを+2pt検出… - 有意水準と検出力を決める
ふつうはα=0.05
、Power=0.80
(強めなら0.90)。 - 効果量・分散の目安を置く
過去データ・予備調査・パイロットでp, σ, Δ
を見積もる(不明なら保守的に)。
実務チート:平均差の目安は n/群 ≈ 16·(σ/Δ)²
(95%×80%)。例:スコアの日内SD=20、検出したい差=5 → 16·(20/5)²=16·16=256/群
。
“読みたくなる”具体例:n=10の危険度を可視化
ケース:10人中8人が「良い」と回答(p̂=0.8)。
- 95%CI(Wilson) ≈ 49%〜94%
- 意思決定コメント:
「80%が好評!」は誇張の恐れ。レンジを併記すべき。
n=100に増やすと…
- 80/100 の95%CI ≈ 71%〜87%
- 結論のブレが半分以下に。施策判断に耐えやすい。
現場で役立つ:即コピペできる“ミニ電卓”
# 比率の必要サンプル(Excel/Sheets)
# 95%CIの誤差±m(セルB2)を達成したいとき(p=0.5で最悪ケース)
=ROUNDUP((1.96^2*0.25)/(B2^2),0)
# 平均差の必要サンプル(片群)
# σ(標準偏差)=B2, 検出したい差Δ=C2、95%×80% の近似
=ROUNDUP(16*(B2/C2)^2,0)
“大きすぎる n” も罠になる
- 資源の浪費:時間・費用・被験者の負担が膨張。
- 無意味な差が「有意」に:nが巨大だと、実務的に無視できる差まで有意になる。
統計的有意 ≠ 実務的意義 を常に分けて考える。
よくある誤解と対策(1分FAQ)
- 「母集団が100万人だからサンプルも巨大に必要?」
→ No。母集団が十分大きければ精度は主に n と 分散/比率で決まる。※ただし抽出率が高い(n/N>5%)場合は有限母集団補正を考慮。 - 「p値が小さい=差が大きい」
→ No。p値は差の大きさだけでなく n と分散にも依存。効果量とCIを併記。 - 「大きい n なら代表性は担保される」
→ No。無作為抽出が前提。収集バイアスがあれば n を増やしても歪みは残る。
チェックリスト:この n で結論を出して良い?
- 目的の誤差(±m)/検出差(Δ)を言語化したか?
- α=0.05、Power=0.8など閾値を合意したか?
- 分散・ベース率の当て(過去データ/予備調査)を置いたか?
- 結果は点推定+CIで報告したか?
- 実務的意義(コスト/ベネフィット)で解釈したか?
まとめ
n=10で結論は出すな。— 小さな n は“たまたま”を増幅し、誤差を大きくする。
意思決定前に、①誤差 or 検出差を宣言→②α/Power を合意→③式に流し込む。
それだけで、議論は「感覚」から「根拠」へ一段上がります。