1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý dữ liệu khuyết bằng Imputation trong R

Connected

Bài tập

Bù khuyết bằng logistic regression

Một lựa chọn phổ biến để bù các biến nhị phân là logistic regression. Đáng tiếc là không có hàm tương tự impute_lm() để làm việc này. Vì vậy, bạn sẽ tự viết một hàm như thế!

Gọi hàm là impute_logreg(). Tham số đầu tiên là data frame df, trong đó các giá trị khuyết đã được khởi tạo và chỉ còn thiếu ở cột cần bù. Tham số thứ hai là một formula cho mô hình logistic regression.

Hàm sẽ thực hiện các bước sau:

  • Ghi lại vị trí các giá trị khuyết.
  • Xây dựng mô hình.
  • Tạo dự đoán.
  • Thay thế giá trị khuyết bằng các dự đoán.

Đừng lo về dòng tạo imp_var — đây chỉ là cách trích tên cột cần bù từ formula. Cùng thực hành functional programming nào!

Hướng dẫn

100 XP
  • Tạo một mặt nạ boolean cho vị trí df[imp_var] bị thiếu và gán vào missing_imp_var.
  • Khớp một mô hình logistic regression dùng formula và dữ liệu mà hàm nhận vào, đồng thời nhớ đặt family phù hợp để đảm bảo khớp logistic regression (truyền không có dấu ngoặc kép); gán mô hình vào logreg_model.
  • Dự đoán biến phản hồi với mô hình và gán vào preds; nhớ đặt type dự đoán thích hợp.
  • Dùng preds cùng với missing_imp_var để bù các giá trị khuyết.