Dicas e truques do kNN I: ponderando doadores
Uma variação de imputação kNN bastante aplicada usa a chamada agregação ponderada pela distância. Isso significa que, ao agregarmos os valores dos vizinhos para obter um substituto para um valor ausente, fazemos isso usando a média ponderada, em que os pesos são as distâncias invertidas de cada vizinho. Como resultado, vizinhos mais próximos têm mais impacto no valor imputado.
Neste exercício, você vai aplicar a agregação ponderada pela distância ao imputar os dados de tao. Para isso, basta passar dois argumentos adicionais para a função kNN(). Vamos lá!
Este exercício faz parte do curso
Tratamento de Dados Ausentes com Imputações em R
Instruções do exercício
- Carregue o pacote
VIM. - Impute
humiditycom kNN usando média ponderada pela distância para agregar os vizinhos; você precisará especificar os argumentosnumFuneweightDist. - O gráfico de margem para visualizar os resultados já foi codado para você.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load the VIM package
___(___)
# Impute humidity with kNN using distance-weighted mean
tao_imp <- ___(tao,
k = 5,
variable = "humidity",
___ = ___,
___ = ___)
tao_imp %>%
select(sea_surface_temp, humidity, humidity_imp) %>%
marginplot(delimiter = "imp")