1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

演習

欠損値の可視化

欠損値をプロットできると、データのどれくらいが欠損しているかを素早く把握できます。変数ごとに規則的な欠損がないかも見えてくるため、バイアスを避けるための丁寧な対応が必要かどうかの判断にも役立ちます。

どの変数が最も多く欠損していますか?最後の行以外のすべてのコードを実行して答えを確認してください。確信が持てたら、値を入力して"Submit Answer"を押してください。

指示

100 XP
  • select() を使って、データフレーム df から列リスト columns を抽出し、与えられた sample() 関数でサンプリングして、結果のデータフレームを変数 sample_df に代入します。
  • サブセット化したデータフレームを pandas のデータフレーム pandas_df に変換し、pandas の isnull() を使って DataFrame を True/False に変換します。結果を tf_df に保存します。
  • seaborn の heatmap() を使って tf_df をプロットします。
  • プロットを確認するには"Run Code"を押してください。次に、最も欠損が多い変数名を answer に代入します。