1. Learn
  2. /
  3. Courses
  4. /
  5. Xử lý dữ liệu khuyết bằng Imputation trong R

Connected

Exercise

Chọn số lượng hàng xóm

k-Nearest-Neighbors (hay kNN) là phương pháp nội suy điền giá trị thiếu của một quan sát dựa trên giá trị từ k quan sát khác giống nó nhất. Số lượng các quan sát tương tự này, gọi là hàng xóm, là một tham số cần chọn trước.

Chọn k như thế nào? Một cách là thử các giá trị khác nhau và xem chúng ảnh hưởng ra sao đến mối quan hệ giữa dữ liệu đã nội suy và dữ liệu quan sát được.

Hãy thử nội suy humidity trong dữ liệu tao với ba giá trị k khác nhau và xem các giá trị nội suy khớp thế nào với quan hệ giữa humidity và sea_surface_temp.

Instructions 1/3

undefined XP
  • 1
    • Nội suy humidity bằng kNN với 30 hàng xóm và vẽ marginplot() của sea_surface_temp so với humidity.
  • 2
    • Nội suy humidity bằng kNN với 15 hàng xóm và vẽ một biểu đồ lề (margin plot) của sea_surface_temp so với humidity.
  • 3
    • Nội suy humidity bằng kNN với 5 hàng xóm và vẽ một biểu đồ lề (margin plot) của sea_surface_temp so với humidity.