1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý dữ liệu khuyết bằng Imputation trong R

Connected

Bài tập

Mẹo kNN II: sắp xếp biến

Khi thuật toán k-Nearest Neighbors lặp qua các biến trong dữ liệu để bù khuyết, nó tính khoảng cách giữa các quan sát dựa trên các biến khác, trong đó có biến đã được bù ở các bước trước. Điều này có nghĩa là nếu các biến nằm sớm trong dữ liệu có nhiều giá trị khuyết, thì phép tính khoảng cách phía sau sẽ dựa trên rất nhiều giá trị đã được bù. Việc này đưa nhiễu vào phép tính khoảng cách.

Vì lý do đó, một thực hành tốt là sắp xếp các biến theo số lượng giá trị khuyết tăng dần trước khi thực hiện kNN imputation. Cách này giúp mỗi lần tính khoảng cách dựa trên càng nhiều dữ liệu quan sát được và càng ít dữ liệu đã bù càng tốt.

Hãy thử áp dụng điều này trên dữ liệu tao!

Hướng dẫn

100 XP
  • Tính số lượng giá trị khuyết ở từng cột của tao trong phần đầu của pipeline.
  • Sau đó, sắp xếp các biến theo số lượng giá trị khuyết theo thứ tự tăng dần, trích xuất tên của chúng và gán kết quả vào vars_by_NAs.
  • Dùng select() để sắp xếp lại thứ tự các biến của tao theo thứ tự đã lưu trong vars_by_NAs.
  • Thực hiện k-Nearest Neighbors imputation trên dữ liệu đã sắp xếp và gán kết quả vào tao_imp.