1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nạp dữ liệu gọn nhẹ với pandas

Connected

Bài tập

Bỏ qua dữ liệu lỗi

Trong bài tập này, bạn sẽ dùng các tham số của read_csv() để xử lý các tệp có dữ liệu lỗi, như những bản ghi có nhiều giá trị hơn số cột. Mặc định, cố gắng nhập các tệp như vậy sẽ gây ra một lỗi cụ thể, pandas.errors.ParserError.

Một số dòng trong dữ liệu thuế Vermont ở đây đã bị hỏng. Để tải được các dòng tốt, chúng ta cần yêu cầu pandas bỏ qua các lỗi. Ta cũng muốn pandas cảnh báo khi bỏ qua một dòng để biết phạm vi vấn đề dữ liệu.

pandas đã được nhập với bí danh pd. Mã bài tập sẽ cố đọc tệp. Nếu có pandas.errors.ParserError, đoạn mã trong khối except sẽ chạy.

Hướng dẫn 1/3

undefined XP
  • 1

    Hãy thử nhập tệp vt_tax_data_2016_corrupt.csv mà không có bất kỳ đối số từ khóa nào.

  • 2

    Nhập vt_tax_data_2016_corrupt.csv với tham số error_bad_lines được đặt để bỏ qua các bản ghi lỗi.

  • 3

    Cập nhật lệnh nhập với tham số warn_bad_lines để đưa ra cảnh báo mỗi khi một bản ghi lỗi bị bỏ qua.