1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý dữ liệu thiếu trong R

Connected

Bài tập

Tạo dữ liệu ma trận bóng (shadow matrix)

Dữ liệu thiếu có thể khó để hình dung, vì chúng thường không tự “lộ diện” mà ẩn trong các lớp dữ liệu.

Một cách để làm lộ các giá trị thiếu là thay đổi cách bạn nghĩ về dữ liệu — coi mỗi giá trị đều là thiếu hoặc không thiếu.

Hàm as_shadow() trong R chuyển một dataframe thành shadow matrix, một định dạng dữ liệu đặc biệt nơi các giá trị hoặc là thiếu (NA), hoặc Không thiếu (!NA).

Tên cột của shadow matrix giống với dữ liệu gốc, nhưng được thêm hậu tố _NA.

Để theo dõi và so sánh giá trị dữ liệu với trạng thái thiếu của chúng, hãy dùng hàm bind_shadow(). Dữ liệu ở định dạng này, khi các cột shadow matrix được gắn kèm với dữ liệu gốc, được gọi là dữ liệu nabular.

Hướng dẫn

100 XP

Sử dụng bộ dữ liệu oceanbuoys:

  • Tạo dữ liệu shadow matrix với as_shadow()
  • Tạo dữ liệu nabular bằng cách gắn shadow vào dữ liệu với bind_shadow()
  • Chỉ gắn các biến có giá trị thiếu bằng bind_shadow(only_miss = TRUE)