ComeçarComece de graça

Escolhendo o número de vizinhos

A imputação k-Nearest-Neighbors (ou kNN) preenche os valores ausentes de uma observação com base nos valores vindos das k outras observações mais semelhantes a ela. A quantidade dessas observações semelhantes, chamadas de vizinhos, que serão consideradas é um parâmetro que precisa ser definido antes.

Como escolher k? Uma forma é testar valores diferentes e ver como eles afetam as relações entre os dados imputados e os observados.

Vamos tentar imputar humidity nos dados tao usando três valores diferentes de k e ver como os valores imputados se ajustam à relação entre humidity e sea_surface_temp.

Este exercício faz parte do curso

Tratamento de Dados Ausentes com Imputações em R

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Impute humidity using 30 neighbors
tao_imp <- ___(tao, k = ___, variable = ___)

# Draw a margin plot of sea_surface_temp vs humidity
tao_imp %>% 
	select(sea_surface_temp, humidity, humidity_imp) %>% 
	___(delimiter = "imp", main = "k = 30")
Editar e executar o código