1. 学ぶ
  2. /
  3. コース
  4. /
  5. R による欠損データの補完処理

Connected

演習

欠損値の初期化と変数の繰り返し処理

impute_lm() を実行しても、すべての欠損値が補完されるとは限りません。確実にすべての欠損値を補完するには、前の章で学んだホットデック補完のようなシンプルな方法で欠損値を初期化しましょう。ホットデック補完は、直前に観測された値をそのまま引き継ぐ手法です。

また、1回の補完だけでは通常不十分です。初期化された基本的な値をもとにしているため、結果にバイアスが生じる可能性があります。適切なアプローチは、元々欠損していた箇所に対して、変数を1つずつ順番に補完する処理を繰り返すことです。

この演習では、まずホットデック補完で欠損値を初期化し、次に tao データの air_temp と humidity に対して線形回帰による補完を5回繰り返します。さっそく始めましょう。

指示

100 XP
  • hotdeck() 補完で欠損値を初期化してください。
  • humidity が元々欠損していた箇所のブールマスクを作成し、missing_humidity に代入してください。
  • forループの中で、作成したブールマスクを使って tao_imp の humidity を元々欠損していた箇所で NA に設定してください。
  • forループの中で、year、latitude、sea_surface_temp、air_temp を予測変数として線形回帰により tao_imp の humidity を補完し、結果を tao_imp に再代入してください。