ComeçarComece de graça

Usando simputation para imputar dados

Existem muitos pacotes de imputação no R. Vamos focar no pacote simputation, que oferece uma interface simples e poderosa para realizar imputações.

Construir um bom modelo de imputação é muito importante, mas é um tópico complexo — criar um bom modelo de imputação é tão trabalhoso quanto criar um bom modelo estatístico. Neste curso, vamos focar em como avaliar imputações.

Primeiro, vamos usar a função impute_lm(), que imputa valores de acordo com um modelo linear especificado.

Neste exercício, vamos aplicar as técnicas de avaliação anteriores aos dados com impute_lm() e, depois, ampliar esse método de imputação nas próximas lições.

Este exercício faz parte do curso

Lidando com dados ausentes em R

Ver curso

Instruções do exercício

Usando o conjunto de dados oceanbuoys:

  • Impute humidity usando wind_ew e wind_ns, e rastreie os valores ausentes com add_label_shadow().
  • Faça um gráfico dos valores imputados de air_temp_c e humidity, colocando-os nos eixos x e y, respectivamente, e colorindo por any_missing().

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Impute humidity and air temperature using wind_ew and wind_ns, and track missing values
ocean_imp_lm_wind <- ___ %>% 
    bind_shadow() %>%
    impute_lm(air_temp_c ~ wind_ew + wind_ns) %>% 
    impute_lm(___ ~ ___ + ___) %>%
    add_label_shadow()
    
# Plot the imputed values for air_temp_c and humidity, colored by missingness
ggplot(___, 
       aes(x = ___, y = ___, color = any_missing)) + 
  geom_point()
Editar e executar o código