1. 学ぶ
  2. /
  3. コース
  4. /
  5. R による欠損データの補完処理

Connected

演習

補完とモデリングを関数にまとめる

補完済みデータに対して分析やモデリングを行う際は、補完に伴う不確実性を考慮する必要があります。1回だけ補完したデータセットでモデルを実行すると、補完が不確実な推定値であるという事実が無視されてしまいます。このようなモデルから得られる標準誤差は、実際よりも小さくなりがちです。この問題を解決するのが多重補完であり、その実装方法の一つがブートストラップです。

以降の演習では、おなじみの biopics データを使って作業します。目標は、ブートストラップによる多重補完と線形回帰を用いて、手元のデータをもとに「女性を主人公とした伝記映画は、男性を主人公とした映画に比べて収益が低いか」を検証することです。

まず、ブートストラップサンプルを作成し、補完を行い、線形回帰モデルをあてはめる関数を作成しましょう。

指示

100 XP
  • indices で指定された行を data から再サンプリングし、結果を data_boot に代入してください。
  • ブートストラップサンプル data_boot に対して、5近傍を使ったkNN補完を適用し、結果を data_imp に代入してください。
  • data_imp を使って、earnings を sub_sex、sub_type、year で説明する線形回帰モデルをあてはめてください。