1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý dữ liệu khuyết bằng Imputation trong R

Connected

Bài tập

Bổ sung thiếu bằng hồi quy tuyến tính

Đôi khi, bạn có thể dùng hiểu biết chuyên môn, nghiên cứu trước đây hoặc đơn giản là trực giác để mô tả mối quan hệ giữa các biến trong dữ liệu. Trong những trường hợp như vậy, bổ sung thiếu dựa trên mô hình (model-based imputation) là một giải pháp tuyệt vời, vì bạn có thể điền giá trị cho từng biến theo một mô hình thống kê do chính bạn xác định, có tính đến các giả định về cách các biến ảnh hưởng lẫn nhau.

Với biến liên tục, lựa chọn mô hình phổ biến là hồi quy tuyến tính. Tuy nhiên, điều này không giới hạn bạn ở quan hệ tuyến tính! Bạn luôn có thể thêm bình phương hoặc logarit của một biến vào tập biến dự báo. Trong bài tập này, bạn sẽ dùng gói simputation để thực hiện một lần bổ sung thiếu bằng hồi quy tuyến tính trên dữ liệu tao và phân tích kết quả. Hãy bắt đầu nhé!

Hướng dẫn 1/4

undefined XP
    1
    2
    3
    4
  • Nạp gói simputation.
  • Dùng impute_lm() để bổ sung thiếu bằng hồi quy tuyến tính cho air_temp và humidity, sử dụng year, latitude và sea_surface_temp làm biến dự báo, và gán kết quả vào tao_imp.