Memilih jumlah tetangga
Imputasi k-Nearest-Neighbors (atau kNN) mengisi nilai yang hilang pada suatu observasi berdasarkan nilai dari k observasi lain yang paling mirip dengannya. Jumlah observasi serupa ini, yang disebut tetangga, adalah parameter yang harus dipilih terlebih dahulu.
Bagaimana memilih k? Salah satu caranya adalah mencoba beberapa nilai dan melihat bagaimana nilai tersebut memengaruhi hubungan antara data yang diimputasi dan data yang teramati.
Mari coba mengimputasi humidity pada data tao menggunakan tiga nilai k yang berbeda dan lihat bagaimana nilai hasil imputasi menyesuaikan hubungan antara humidity dan sea_surface_temp.
Latihan ini adalah bagian dari kursus
Menangani Data Hilang dengan Imputasi di R
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Impute humidity using 30 neighbors
tao_imp <- ___(tao, k = ___, variable = ___)
# Draw a margin plot of sea_surface_temp vs humidity
tao_imp %>%
select(sea_surface_temp, humidity, humidity_imp) %>%
___(delimiter = "imp", main = "k = 30")