1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với Python

Connected

Bài tập

Tính toàn vẹn dữ liệu của chúng ta ra sao?

Dữ liệu mới đã được gộp vào DataFrame banking, chứa chi tiết cách số tiền đầu tư trong cột inv_amount được phân bổ vào bốn quỹ A, B, C và D.

Ngoài ra, tuổi và ngày sinh của khách hàng hiện được lưu lần lượt trong các cột age và birth_date.

Bạn muốn hiểu cách khách hàng ở các nhóm tuổi khác nhau đầu tư. Tuy nhiên, trước tiên bạn muốn đảm bảo dữ liệu mình phân tích là chính xác. Bạn sẽ thực hiện điều này bằng cách kiểm tra chéo giá trị của inv_amount và age so với số tiền đầu tư vào các quỹ khác nhau và ngày sinh của khách hàng. Cả pandas và datetime đều đã được import lần lượt là pd và dt.

Hướng dẫn 1/2

undefined XP
  • 1
    • Tìm các hàng mà tổng theo hàng của tất cả cột trong fund_columns của banking bằng với cột inv_amount.
    • Lưu các giá trị của banking có inv_amount nhất quán vào consistent_inv, và những giá trị không nhất quán vào inconsistent_inv.
  • 2
    • Lưu ngày hôm nay vào today, và tự tính tuổi khách hàng rồi lưu vào ages_manual.
    • Tìm tất cả các hàng của banking nơi cột age bằng ages_manual, sau đó lọc banking thành consistent_ages và inconsistent_ages.