1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý dữ liệu thiếu trong R

Connected

Bài tập

Các tổng quan khác về dữ liệu thiếu

Một số cách tóm tắt dữ liệu thiếu đặc biệt hữu ích cho những kiểu dữ liệu khác nhau. Ví dụ, miss_var_span() và miss_var_run().

  • miss_var_span() tính số lượng giá trị thiếu trong một biến xác định theo các khoảng lặp lại. Điều này rất hữu ích với dữ liệu chuỗi thời gian để tìm các mẫu thiếu theo tuần (7 ngày).

  • miss_var_run() tính số lượng "chuỗi" hay "đợt" thiếu. Cách này hữu ích để phát hiện các mẫu thiếu bất thường; chẳng hạn, bạn có thể thấy một mẫu lặp lại gồm 5 quan sát đầy đủ và 5 quan sát thiếu.

Cả miss_var_span() và miss_var_run() đều hoạt động với toán tử group_by từ dplyr.

Hướng dẫn

100 XP

Sử dụng bộ dữ liệu pedestrian từ naniar:

  • Tính các tóm tắt dữ liệu thiếu cho các biến trong dữ liệu bằng miss_var_span() với khoảng là 4000.
  • Tính các tóm tắt dữ liệu thiếu cho từng quan sát (cases) trong dữ liệu bằng miss_var_run().
  • Kết hợp với toán tử group_by của dplyr theo biến month.