1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý Dữ liệu Khuyết trong Python

Connected

Bài tập

Bạn sẽ xóa chứ?

Trước khi xóa hoàn toàn các giá trị thiếu, bạn cần cân nhắc các yếu tố để quyết định có nên xóa hay không. Yếu tố đơn giản nhất là quy mô dữ liệu bị thiếu. Những lý do phức tạp hơn ảnh hưởng đến tình trạng thiếu có thể cần kiến thức miền. Trong bài tập này, bạn sẽ xác định lý do gây thiếu dữ liệu rồi thực hiện cách xóa phù hợp.

Đầu tiên, bạn sẽ dùng msno.matrix() và msno.heatmap() để trực quan hóa mức độ thiếu và mối tương quan giữa các biến có dữ liệu thiếu. Sau đó, bạn sẽ xác định mẫu hình (pattern) của thiếu dữ liệu. Cuối cùng, bạn sẽ xóa dựa trên kiểu thiếu dữ liệu.

DataFrame diabetes đã được nạp sẵn cho bạn.

Lưu ý: chúng tôi dùng hàm độc quyền display() thay cho plt.show() để bạn xem kết quả dễ hơn.

Hướng dẫn 1/4

undefined XP
    1
    2
    3
    4
  • Trực quan hóa ma trận thiếu dữ liệu của diabetes.