1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Feature Engineering cho Machine Learning bằng Python

Connected

Bài tập

Xử lý ký tự lạc (II)

Trong bài trước, dựa vào lệnh df.head() bạn có thể nhanh chóng nhận ra ký tự nào gây vấn đề. Nhưng nhiều khi điều đó không rõ ràng như vậy. Thường sẽ có những giá trị nằm sâu trong một cột ngăn bạn chuyển kiểu dữ liệu của cột sang số để dùng trong mô hình hoặc cho các bước feature engineering tiếp theo.

Một cách để tìm các giá trị này là ép cột về kiểu dữ liệu mong muốn bằng pd.to_numeric(), chuyển các giá trị có vấn đề thành NaN, rồi lọc DataFrame chỉ lấy các hàng chứa giá trị NaN.

Hãy thử ép cột RawSalary sang kiểu float — bạn sẽ thấy lỗi vì có thêm một ký tự khác xuất hiện. Hãy tìm ký tự đó và loại bỏ để có thể chuyển cột sang float.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Thử chuyển cột RawSalary của so_survey_df sang giá trị số, ép tất cả lỗi chuyển đổi thành giá trị null.
  • Tìm chỉ số của các hàng chứa NaN.
  • In ra các hàng trong RawSalary dựa trên các chỉ số này.