1. 学ぶ
  2. /
  3. コース
  4. /
  5. pandasで効率よくデータを取り込む

Connected

演習

欠損・不正なデータをスキップする

この演習では、read_csv() のパラメータを使って、列数より多くの値を含むレコードなど、不正なデータを含むファイルに対処します。既定では、このようなファイルを読み込もうとすると、特定のエラー pandas.errors.ParserError が発生します。

ここにあるバーモント州の税データには、一部壊れている行があります。正常な行だけを読み込むには、エラーをスキップするように pandas に指示する必要があります。また、どの程度データに問題があるか把握できるよう、行をスキップした際には警告も出してほしいです。

pandas は pd としてインポート済みです。演習コードはファイルの読み込みを試みます。pandas.errors.ParserError が発生した場合は、except ブロック内のコードが実行されます。

指示1 / 3

undefined XP
  • 1

    キーワード引数を使わずに、vt_tax_data_2016_corrupt.csv をインポートしてみてください。

  • 2

    不正なレコードをスキップするように、error_bad_lines パラメータを設定して vt_tax_data_2016_corrupt.csv をインポートしてください。

  • 3

    不正なレコードをスキップしたときに警告を出すよう、warn_bad_lines パラメータを設定してインポートを更新してください。