1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Học có giám sát với scikit-learn

Connected

Bài tập

Loại bỏ dữ liệu thiếu

Trong ba bài tập tới, bạn sẽ dọn dẹp tập dữ liệu music_df. Bạn sẽ tạo một pipeline để bù giá trị thiếu và xây dựng một mô hình phân loại KNN, sau đó dùng nó để dự đoán liệu một bài hát có thuộc thể loại "Rock" hay không.

Riêng trong bài tập này, bạn sẽ loại bỏ các giá trị thiếu chiếm dưới 5% của tập dữ liệu, và chuyển cột "genre" thành một đặc trưng nhị phân.

Hướng dẫn 1/3

undefined XP
    1
    2
    3
  • In số lượng giá trị thiếu cho mỗi cột trong tập dữ liệu music_df, được sắp xếp theo thứ tự tăng dần.