ランダムフォレストによる補完

機械学習を使った補完アプローチは、従来の統計モデルと比べて、精度が高く、かつ実装も簡単です。変数間の関係を事前に指定する必要がなく、ランダムフォレストのような機械学習モデルは、複雑な非線形の関係も自動的に発見し、それを活用して欠損値を予測できます。

この演習では、missForest パッケージを使ってみましょう。このパッケージは、各変数の欠損値を予測するためのランダムフォレストを個別に構築します。コース前半でも使用した人物伝映画データ biopics に対して補完関数を実行し、補完済みデータと推定補完誤差を取り出します。

さっそくランダムフォレストを育ててみましょう！