1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý dữ liệu khuyết bằng Imputation trong R

Connected

Bài tập

Khởi tạo giá trị thiếu & lặp qua các biến

Như bạn vừa thấy, chạy impute_lm() có thể không điền hết tất cả giá trị thiếu. Để đảm bảo bạn bù toàn bộ, trước hết hãy khởi tạo các giá trị thiếu bằng một phương pháp đơn giản, chẳng hạn hot-deck imputation mà bạn đã học ở chương trước, phương pháp này đơn giản là lan truyền giá trị quan sát gần nhất về phía trước.

Hơn nữa, một lần bù đơn lẻ thường không đủ. Nó dựa trên các giá trị khởi tạo cơ bản và có thể bị thiên lệch. Cách tiếp cận đúng là lặp qua các biến, bù từng biến một tại đúng các vị trí mà ban đầu chúng bị thiếu.

Trong bài tập này, trước tiên bạn sẽ khởi tạo các giá trị thiếu bằng hot-deck imputation, sau đó lặp năm lần qua air_temp và humidity từ dữ liệu tao để bù chúng bằng hồi quy tuyến tính. Bắt đầu thôi!

Hướng dẫn

100 XP
  • Khởi tạo các giá trị thiếu bằng phép bù hotdeck().
  • Tạo một mặt nạ boolean cho các vị trí humidity ban đầu bị thiếu và gán vào missing_humidity.
  • Bên trong vòng lặp for, đặt humidity trong tao_imp thành NA tại các vị trí ban đầu bị thiếu bằng mặt nạ boolean bạn đã tạo.
  • Bên trong vòng lặp for, bù humidity trong tao_imp bằng hồi quy tuyến tính, sử dụng year, latitude, sea_surface_temp và air_temp làm biến dự báo và gán lại kết quả vào tao_imp.