1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu trong R

Connected

Bài tập

Xử lý dữ liệu thiếu

Trong bài tập này, bạn làm việc với một phiên bản khác của dữ liệu accounts có giá trị thiếu ở cả hai cột cust_id và acct_amount.

Bạn muốn biết ngân hàng có bao nhiêu khách hàng duy nhất, cũng như số tiền trung bình mà khách hàng đang nắm giữ. Bạn biết rằng các hàng thiếu cust_id không thực sự hữu ích, và trung bình thì acct_amount thường gấp 5 lần inv_amount.

Trong bài này, bạn sẽ loại bỏ các hàng trong accounts có cust_id bị thiếu và điền (impute) các giá trị thiếu của inv_amount dựa trên hiểu biết lĩnh vực. dplyr và assertive đã được nạp và accounts đã sẵn sàng sử dụng.

Hướng dẫn 1/4

undefined XP
    1
    2
    3
    4
  • Lọc accounts để loại bỏ các hàng có cust_id bị thiếu và lưu thành accounts_clean.