多重比較の問題

多重比較の問題は、研究者が有意性を確認するために異なる変数やサンプル同士を繰り返し検定することで生じます。偶然によって、統計的に有意な結果がときどき見つかることは当然起こりえます。

この演習では、テキサス州オースティン市の職員の給与データを扱います。職員の給与と、ランダムに生成したデータを比較します。ランダムなデータが、どれくらいの頻度で職員の給与を「有意」に説明してしまうかを確認します。ランダムな数字は何かを説明するのに役立たないため、こうした「有意性」は明らかに見せかけ（スプリアス）です。

警察官の給与の DataFrame（police_salaries_df）は読み込まれており、pandas は pd、NumPy は np、Matplotlib は plt、SciPy からは stats が使用可能です。