1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với Python

Connected

Bài tập

Thiếu nhà đầu tư

Xử lý dữ liệu thiếu là một trong những nhiệm vụ phổ biến nhất trong khoa học dữ liệu. Có nhiều kiểu thiếu dữ liệu khác nhau, và cũng có nhiều cách khác nhau để xử lý chúng.

Bạn vừa nhận một phiên bản mới của DataFrame banking chứa dữ liệu về số tiền nắm giữ và đầu tư cho khách hàng mới và hiện có. Tuy nhiên, có một số hàng bị thiếu giá trị inv_amount.

Bạn biết chắc rằng phần lớn khách hàng dưới 25 tuổi chưa có tài khoản đầu tư, và nghi ngờ đây có thể là nguyên nhân gây ra thiếu dữ liệu. Các gói pandas, missingno và matplotlib.pyplot đã được nhập lần lượt là pd, msno và plt. DataFrame banking đã có sẵn trong môi trường của bạn.

Hướng dẫn 1/4

undefined XP
    1
    2
    3
    4
  • In số lượng giá trị thiếu theo từng cột trong DataFrame banking.
  • Vẽ và hiển thị ma trận thiếu dữ liệu của banking với hàm msno.matrix().