1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で学ぶ Machine Learning のための特徴量エンジニアリング

Connected

演習

不要な文字への対処 (II)

前の演習では、df.head() の呼び出しから、どの文字が問題の原因かをすぐに特定できました。しかし、多くの場合はそれほど明白ではありません。列の深い部分にある値が原因で、列を数値型に変換できず、モデルやその後の特徴量エンジニアリングに使えないことがよくあります。

これらの値を見つける1つの方法は、pd.to_numeric() を使って列を目的のデータ型に強制変換し、問題を起こす値は NaN に置き換え、その後 DataFrame を NaN を含む行だけでフィルタリングすることです。

RawSalary 列を float にキャストしてみてください。今回は別の文字が含まれているため失敗します。文字を特定して取り除き、列を float にキャストできるようにしましょう。

指示1 / 2

undefined XP
    1
    2
  • 失敗した値をすべて欠損値に強制しながら、so_survey_df の RawSalary 列を数値に変換してみましょう。
  • NaN を含む行のインデックスを見つけてください。
  • これらのインデックスに基づいて RawSalary の該当行を出力してください。