Escolhendo o número de vizinhos
A imputação k-Nearest-Neighbors (ou kNN) preenche os valores ausentes de uma observação com base nos valores vindos das k outras observações mais semelhantes a ela. A quantidade dessas observações semelhantes, chamadas de vizinhos, que serão consideradas é um parâmetro que precisa ser definido antes.
Como escolher k? Uma forma é testar valores diferentes e ver como eles afetam as relações entre os dados imputados e os observados.
Vamos tentar imputar humidity nos dados tao usando três valores diferentes de k e ver como os valores imputados se ajustam à relação entre humidity e sea_surface_temp.
Este exercício faz parte do curso
Tratamento de Dados Ausentes com Imputações em R
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Impute humidity using 30 neighbors
tao_imp <- ___(tao, k = ___, variable = ___)
# Draw a margin plot of sea_surface_temp vs humidity
tao_imp %>%
select(sea_surface_temp, humidity, humidity_imp) %>%
___(delimiter = "imp", main = "k = 30")