Usando simputation para imputar dados
Existem muitos pacotes de imputação no R. Vamos focar no pacote simputation, que oferece uma interface simples e poderosa para realizar imputações.
Construir um bom modelo de imputação é muito importante, mas é um tópico complexo — criar um bom modelo de imputação é tão trabalhoso quanto criar um bom modelo estatístico. Neste curso, vamos focar em como avaliar imputações.
Primeiro, vamos usar a função impute_lm(), que imputa valores de acordo com um modelo linear especificado.
Neste exercício, vamos aplicar as técnicas de avaliação anteriores aos dados com impute_lm() e, depois, ampliar esse método de imputação nas próximas lições.
Este exercício faz parte do curso
Lidando com dados ausentes em R
Instruções do exercício
Usando o conjunto de dados oceanbuoys:
- Impute
humidityusandowind_ewewind_ns, e rastreie os valores ausentes comadd_label_shadow(). - Faça um gráfico dos valores imputados de
air_temp_cehumidity, colocando-os nos eixos x e y, respectivamente, e colorindo porany_missing().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Impute humidity and air temperature using wind_ew and wind_ns, and track missing values
ocean_imp_lm_wind <- ___ %>%
bind_shadow() %>%
impute_lm(air_temp_c ~ wind_ew + wind_ns) %>%
impute_lm(___ ~ ___ + ___) %>%
add_label_shadow()
# Plot the imputed values for air_temp_c and humidity, colored by missingness
ggplot(___,
aes(x = ___, y = ___, color = any_missing)) +
geom_point()