1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý dữ liệu thiếu trong R

Connected

Bài tập

Lập bảng tình trạng thiếu dữ liệu

Các tổng hợp về thiếu dữ liệu mà chúng ta vừa tính cho biết số lượng và tỷ lệ phần trăm giá trị thiếu theo từng dòng (cases) và biến (variables).

Một cách khác để tóm tắt thiếu dữ liệu là lập bảng số lần xuất hiện 0, 1, 2, 3, … giá trị thiếu trong một biến hoặc trong một dòng.

Trong bài tập này, bạn sẽ lập bảng số lượng giá trị thiếu ở từng dòng và từng biến bằng miss_var_table() và miss_case_table(), đồng thời kết hợp các bảng này với toán tử group_by của dplyr để khám phá các bản tóm tắt theo một biến nhóm trong bộ dữ liệu.

Hướng dẫn

100 XP

Với bộ dữ liệu airquality:

  • Lập bảng tình trạng thiếu dữ liệu cho từng biến bằng miss_var_table().
  • Lập bảng tình trạng thiếu dữ liệu cho từng dòng bằng miss_case_table().
  • Kết hợp các bảng trên với hàm group_by() của dplyr để tạo các bảng theo từng biến và từng dòng, cho từng Month.