1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶ線形モデリング入門

Connected

演習

ブートストラップと標準誤差

国立公園では、レンジャーが毎日トレイル整備の一環としてハイキングをします。毎回同じルートではありませんが、最終的な移動距離と所要時間は記録しています。ここでは、ある1人のレンジャーから得られた限られた標本データを使って、日々の移動距離のばらつきを統計モデル化したいと考えます。

あなたの目標は、ブートストラップ再標本化を用いて、各再標本ごとに平均を1つ計算し、その平均の分布を作ることです。次に、その分布から標準誤差を計算し、母集団統計量の推定量としての標本統計量に含まれる「不確実性」を定量化します。

あらかじめ読み込まれている sample_data 配列には、移動距離の独立な測定値が500件含まれています。今回はレッスンを簡潔にするためにシミュレートしたデータを使います。後ほど、より現実的なデータも見ていきます。

指示

100 XP
  • sample_data を母集団のモデルとして population_model に代入します。

  • num_resamples 回ループして、次を行います:

    • 毎回 np.random.choice() を使い、population_model から size=resample_size、replace=True を指定して bootstrap_sample を生成します。
    • 毎回、標本平均を計算して保存します。
  • bootstrap_means に対して np.mean() と np.std() を計算して表示します。

  • 事前定義の plot_data_hist() を使って、bootstrap_means の分布を可視化します。