1. 学ぶ
  2. /
  3. コース
  4. /
  5. R による欠損データの補完処理

Connected

演習

ホットデック補完のコツとヒント I:ドメイン内での補完

ホットデック補完で変数間の関係が崩れてしまう場合に有効なテクニックの一つが、ドメイン内での補完です。これは、補完対象の変数が別のカテゴリ変数と相関している場合に、そのカテゴリごとにホットデック補完を個別に実行する方法です。

たとえば、地球温暖化による平均気温の上昇を考えると、気温は時間に依存すると考えられます。tao データで利用できる時間の指標は、カテゴリ変数の year です。まず、2 つの調査年それぞれの平均気温に差があるかどうかを確認し、次に年のドメインごとにホットデック補完を実行しましょう。最後に、マージンプロットを再度描画して補完の精度を評価します。

指示

100 XP
  • NA を除外しながら、年ごとの air_temp の平均値を計算し、結果を average_air_temp に代入してください。
  • tao データの air_temp の欠損値を、year ドメイン内でホットデック補完を使って補完し、結果を tao_imp に代入してください。
  • air_temp と sea_surface_temp のマージンプロットを作成してください。プロット関数に渡す変数に air_temp_imp を含めることを忘れないようにしましょう。