1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶ推測の基礎

Connected

演習

多重比較の問題

多重比較の問題は、研究者が有意性を確認するために異なる変数やサンプル同士を繰り返し検定することで生じます。偶然によって、統計的に有意な結果がときどき見つかることは当然起こりえます。

この演習では、テキサス州オースティン市の職員の給与データを扱います。職員の給与と、ランダムに生成したデータを比較します。ランダムなデータが、どれくらいの頻度で職員の給与を「有意」に説明してしまうかを確認します。ランダムな数字は何かを説明するのに役立たないため、こうした「有意性」は明らかに見せかけ(スプリアス)です。

警察官の給与の DataFrame(police_salaries_df)は読み込まれており、pandas は pd、NumPy は np、Matplotlib は plt、SciPy からは stats が使用可能です。

指示

100 XP
  • データセット内の人数(各行が 1 人)を n_rows に格納し、有意な結果の個数 n_significant を 0 で初期化します。
  • 1000 回実行する for ループを書き、各回で n_rows 個の乱数を生成します。
  • 生成した乱数と警察官の給与との間で、Pearson の相関係数と対応する p 値を計算します。
  • p 値が 5% で有意なら、+= 演算子を使って n_significant を 1 増やします。