スイーツ好きの分布:アンケート調査で分析する好みの偏り

統計

はじめに

みなさんは、スイーツの好みに偏りがあるのか気になったことはありませんか?今回は、オンラインアンケートを通じて「好きなスイーツの種類」と「購入頻度」の関係を調査し、統計学の手法で分析してみましょう。

この記事では、クロス集計表の作成から**カイ二乗検定(χ²検定)**による独立性の検定まで、初学者にも分かりやすく解説します。

調査の概要

調査目的

  • スイーツの好みと購入頻度に関連性があるかを統計的に検証する
  • クロス集計とカイ二乗検定の手法を実際のデータで学習する

調査方法

  • 調査期間: 2024年10月1日~10月31日
  • 対象者: 20~60代の男女
  • 回答数: 300人
  • 調査項目:
    • 好きなスイーツの種類(チョコレート、ケーキ、アイスクリーム、和菓子)
    • スイーツの購入頻度(週1回以上、月1~3回、月1回未満)

データの整理:クロス集計表とは

クロス集計表の基本概念

クロス集計表(クロス表)は、2つの変数の関係を表にまとめたものです。今回の調査では、以下の2つの変数を分析します:

  • 行変数: 好きなスイーツの種類(カテゴリカル変数)
  • 列変数: 購入頻度(順序変数)

実際のクロス集計表

調査結果をクロス集計表にまとめると以下のようになります:

好きなスイーツ週1回以上月1~3回月1回未満合計チョコレート45301590ケーキ25352080アイスクリーム40251075和菓子15202055合計12511065300

この表から、以下の傾向が読み取れます:

  • チョコレート好きは購入頻度が高い人が多い(45/90 = 50%)
  • 和菓子好きは購入頻度が低い人の割合が高い(20/55 = 36%)
  • アイスクリーム好きも購入頻度が高い傾向にある

統計的検定:カイ二乗検定の実施

カイ二乗検定とは

カイ二乗検定(χ²検定)は、2つのカテゴリカル変数が独立かどうかを検定する手法です。今回は「スイーツの好みと購入頻度が独立かどうか」を検証します。

仮説の設定

  • 帰無仮説(H₀): スイーツの好みと購入頻度は独立である(関連性がない)
  • 対立仮説(H₁): スイーツの好みと購入頻度は独立でない(関連性がある)

期待度数の計算

各セルの期待度数は以下の公式で計算します:

期待度数 = (行の合計 × 列の合計) ÷ 全体の合計

例:チョコレート×週1回以上の期待度数 = (90 × 125) ÷ 300 = 37.5

期待度数表

好きなスイーツ週1回以上月1~3回月1回未満チョコレート37.533.019.5ケーキ33.329.317.3アイスクリーム31.327.516.3和菓子22.920.211.9

カイ二乗統計量の計算

カイ二乗統計量は以下の公式で計算します:

χ² = Σ[(観測度数 – 期待度数)² ÷ 期待度数]

各セルの計算例:

  • チョコレート×週1回以上:(45 – 37.5)² ÷ 37.5 = 1.50
  • チョコレート×月1~3回:(30 – 33.0)² ÷ 33.0 = 0.27
  • (以下同様に計算)

計算結果:χ² = 12.86

自由度と臨界値

  • 自由度 = (行数 – 1) × (列数 – 1) = (4 – 1) × (3 – 1) = 6
  • 有意水準 = 0.05
  • 臨界値 = 12.59

検定結果の解釈

χ² = 12.86 > 臨界値 12.59

計算されたカイ二乗統計量が臨界値を上回っているため、帰無仮説を棄却します。

結論: スイーツの好みと購入頻度には統計的に有意な関連性がある(p < 0.05)

結果の解釈と実用的な意味

統計的有意性の意味

今回の検定結果により、スイーツの好みと購入頻度には統計的に有意な関連性があることが分かりました。具体的には:

  1. チョコレート好きの人は購入頻度が高い傾向にある
  2. 和菓子好きの人は購入頻度が低い傾向にある
  3. アイスクリーム好きの人も購入頻度が高い傾向にある

実用的な応用

この結果は、以下のような分野で活用できます:

  • マーケティング戦略: 商品の好みに応じた販促頻度の調整
  • 店舗運営: 顧客の購入パターンに基づいた商品配置
  • 商品開発: ターゲット顧客の嗜好と購入行動の理解

統計学初学者へのポイント

クロス集計表の読み方

  1. 行合計と列合計を確認し、データの分布を把握する
  2. パーセントで表現すると傾向が分かりやすくなる
  3. セル間の比較で特徴的なパターンを見つける

カイ二乗検定の注意点

  1. 期待度数が5未満のセルが多い場合は、検定の精度が低下する
  2. サンプルサイズが小さいと検定力が不足する
  3. 統計的有意性実用的意味は別物であることを理解する

統計ソフトの活用

実際の分析では、以下のソフトを活用すると効率的です:

  • Excel: 基本的なクロス集計表の作成
  • R: より詳細な統計解析
  • Python: データ処理から可視化まで
  • SPSS: 総合的な統計解析ソフト

まとめ

今回の調査により、スイーツの好みと購入頻度には統計的に有意な関連性があることが明らかになりました。クロス集計表を用いたデータの整理から、カイ二乗検定による統計的検証まで、一連の分析手法を学ぶことができました。

統計学の基礎的な手法であるクロス集計とカイ二乗検定は、様々な分野で応用可能な重要なツールです。この記事を参考に、ぜひ実際のデータ分析に挑戦してみてください。

次のステップ

さらに詳しい分析を行いたい場合は、以下の手法も検討してみましょう:

  • 残差分析: どのセルが関連性に大きく寄与しているかを特定
  • 多重比較: 複数のグループ間の比較を適切に行う
  • 回帰分析: より詳細な変数間の関係を探る

統計学は実践を通じて理解が深まる分野です。今回の手法を参考に、身の回りのデータを分析してみてはいかがでしょうか。