1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Machine Learning với caret trong R

Connected

Bài tập

Dùng KNN imputation

Ở bài trước, bạn đã dùng median imputation để điền các giá trị thiếu trong bộ dữ liệu ung thư vú, nhưng đó không phải là cách duy nhất để xử lý dữ liệu thiếu.

Một phương án khác là k-nearest neighbors (KNN) imputation. Đây là cách nội suy nâng cao hơn, trong đó các giá trị bị thiếu được thay bằng giá trị từ các hàng khác tương tự với hàng hiện tại. Dù việc triển khai thực tế phức tạp hơn nhiều so với median imputation đơn giản, bạn có thể khám phá rất dễ trong caret bằng cách dùng đối số preProcess của train(). Bạn chỉ cần đặt preProcess = "knnImpute" để thay đổi phương pháp nội suy được dùng trước khi huấn luyện mô hình.

Hướng dẫn

100 XP

breast_cancer_x và breast_cancer_y đã được nạp vào không gian làm việc của bạn.

  • Dùng hàm train() để khớp một mô hình glm tên là knn_model cho bộ dữ liệu ung thư vú.
  • Sử dụng KNN imputation để xử lý các giá trị thiếu.