1. 学ぶ
  2. /
  3. コース
  4. /
  5. R による欠損データの補完処理

Connected

演習

ランダムフォレストによる補完

機械学習を使った補完アプローチは、従来の統計モデルと比べて、精度が高く、かつ実装も簡単です。変数間の関係を事前に指定する必要がなく、ランダムフォレストのような機械学習モデルは、複雑な非線形の関係も自動的に発見し、それを活用して欠損値を予測できます。

この演習では、missForest パッケージを使ってみましょう。このパッケージは、各変数の欠損値を予測するためのランダムフォレストを個別に構築します。コース前半でも使用した人物伝映画データ biopics に対して補完関数を実行し、補完済みデータと推定補完誤差を取り出します。

さっそくランダムフォレストを育ててみましょう!

指示

100 XP
  • missForest パッケージを読み込みましょう。
  • missForest() を使って biopics データの欠損値を補完し、結果を imp_res に代入しましょう。
  • imp_res から補完済みデータセットを取り出して imp_data に代入し、欠損値の数が本当にゼロになっているか確認しましょう。
  • imp_res から推定補完誤差を取り出して imp_err に代入し、コンソールに出力しましょう。