1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý dữ liệu khuyết bằng Imputation trong R

Connected

Bài tập

Mẹo hot-deck I: nội suy theo miền (domain)

Một mẹo có thể hữu ích khi hot-deck làm đứt gãy quan hệ giữa các biến là nội suy trong từng miền (domain). Nghĩa là, nếu biến cần nội suy có tương quan với một biến phân loại khác, bạn có thể chạy hot-deck riêng cho từng hạng mục (category) của biến đó.

Ví dụ, bạn có thể kỳ vọng nhiệt độ không khí phụ thuộc vào thời gian, vì nhiệt độ trung bình đang tăng do biến đổi khí hậu. Chỉ báo thời gian bạn có trong dữ liệu tao là một biến phân loại, year. Hãy kiểm tra trước xem nhiệt độ không khí trung bình có khác nhau giữa hai năm được nghiên cứu hay không, rồi chạy hot-deck trong các miền theo năm. Cuối cùng, bạn sẽ vẽ lại margin plot để đánh giá hiệu quả nội suy.

Hướng dẫn

100 XP
  • Tính giá trị trung bình air_temp cho từng năm, đặt tên kết quả là average_air_temp và loại trừ các giá trị NA khi tính trung bình.
  • Nội suy các giá trị thiếu của air_temp trong dữ liệu tao theo các miền year bằng hot-deck và gán kết quả cho tao_imp.
  • Tạo margin plot của air_temp so với sea_surface_temp; nhớ đưa air_temp_imp vào danh sách biến truyền vào hàm vẽ.