1. 학습
  2. /
  3. 강의
  4. /
  5. Làm sạch dữ liệu với Python

Connected

연습 문제

Lần theo dòng tiền

Trong bài này, bạn làm việc với một phiên bản khác của DataFrame banking có giá trị thiếu ở cả cột cust_id và acct_amount.

Bạn muốn phân tích xem ngân hàng có bao nhiêu khách hàng duy nhất, số tiền trung bình mà khách hàng nắm giữ và nhiều chỉ số khác. Bạn biết rằng các hàng thiếu cust_id không hữu ích, và trung bình acct_amount thường gấp 5 lần inv_amount.

Trong bài tập này, bạn sẽ loại bỏ các hàng trong banking bị thiếu cust_id, và nội suy các giá trị thiếu của acct_amount dựa trên hiểu biết nghiệp vụ.

지침

100 XP
  • Dùng .dropna() để loại bỏ các giá trị thiếu của cột cust_id trong banking và lưu kết quả vào banking_fullid.
  • Dùng inv_amount để tính giá trị ước tính cho acct_amount trong banking_fullid bằng cách đặt bằng inv_amount * 5, và gán kết quả cho acct_imp.
  • Nội suy (điền) các giá trị thiếu của acct_amount trong banking_fullid bằng acct_imp vừa tạo, sử dụng .fillna().