1. Lära sig
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶ機械学習のモニタリング

Connected

exercise

データ品質チェック

前の動画で学んだとおり、欠損値は有用な情報の損失を招き、誤った解釈につながる可能性があります。同様に、未出現値(これまでに見たことのない値)の存在もモデルの信頼性に影響します。

この演習では、ホテル予約のデータセットに欠損値が含まれているかを調べ、未出現値がないかを特定します。参照用データセットと分析用データセットはすでに読み込まれており、nannyml ライブラリも利用できます。

補足として、列の型を思い出せない場合は、.head() メソッドで簡単にデータを確認できます。

Instruktioner 1 / 2

undefined XP
  • 1
    • 欠損値計算器を初期化し、選択した列を column_names に渡し、chunk_period を月次に設定します。
  • 2
    • カテゴリ変数の列名 country と hotel を追加し、未出現値計算器を初期化して、categorical_columns を column names に渡します。