1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý dữ liệu khuyết bằng Imputation trong R

Connected

Bài tập

Điền khuyết bằng random forests

Cách tiếp cận Machine Learning để điền khuyết có thể vừa chính xác hơn vừa dễ triển khai hơn so với các mô hình thống kê truyền thống. Trước hết, bạn không cần chỉ định mối quan hệ giữa các biến. Hơn nữa, các mô hình Machine Learning như random forests có thể khám phá những quan hệ phi tuyến, rất phức tạp và tận dụng chúng để dự đoán các giá trị bị thiếu.

Trong bài tập này, bạn sẽ làm quen với gói missForest, gói này xây một random forest riêng để dự đoán giá trị thiếu cho từng biến, lần lượt. Bạn sẽ gọi hàm điền khuyết trên dữ liệu phim tiểu sử, biopics, mà bạn đã làm việc cùng trước đó trong khóa học, rồi trích xuất dữ liệu đã điền cũng như sai số ước tính của phép điền khuyết.

Cùng “trồng” vài random forests nào!

Hướng dẫn

100 XP
  • Nạp gói missForest.
  • Dùng missForest() để điền giá trị khuyết trong dữ liệu biopics; gán kết quả vào imp_res.
  • Trích xuất tập dữ liệu đã điền từ imp_res, gán vào imp_data, và kiểm tra xem số lượng giá trị khuyết có thực sự bằng không.
  • Trích xuất sai số điền khuyết ước tính từ imp_res, gán vào imp_err, và in ra console.