1. Learn
  2. /
  3. Courses
  4. /
  5. Rで学ぶスケーラブルなデータ処理

Connected

Exercise

予測可能な欠損を探す

データが完全にランダムに欠損している場合、他の変数からその欠損の発生を予測できないはずです。したがって、欠損を予測できるのであれば、完全にランダムな欠損ではありません。そこで、先ほど作成した mort 変数の中で、affordability に基づく欠損を調べるために、glm() 関数でロジスティック回帰を当ててみましょう。欠損に明確な構造が見つからない、すなわち傾きに対応する係数が有意でない場合でも、「データがランダムに欠損している」と証明したことにはなりませんが、その可能性は高いといえます。

Instructions

100 XP
  • 住宅ローンデータで、"borrower_race" が欠損(9 と等しい)かどうかを示す変数を作成します。
  • "affordability" 列のファクター変数を作成します。
  • affordability_factor を borrower_race_ind に回帰し、summary() を呼び出してください。