Combinando e comparando vários modelos de imputação
Para avaliar os diferentes métodos de imputação, precisamos colocá-los em um único dataframe. Em seguida, você vai comparar três abordagens para lidar com dados ausentes usando o conjunto de dados oceanbuoys.
- O primeiro método usa apenas os casos completos e já está carregado como
ocean_cc. - O segundo método imputa valores usando um modelo linear com previsões feitas a partir do vento e já está carregado como
ocean_imp_lm_wind.
Você vai criar o terceiro conjunto de dados imputado, ocean_imp_lm_all, usando um modelo linear e imputar as variáveis sea_temp_c, air_temp_c e humidity com base nas variáveis wind_ew, wind_ns, year, latitude, longitude.
Depois, você vai unir todos os conjuntos de dados (ocean_cc, ocean_imp_lm_wind e ocean_imp_lm_all), chamando o resultado de bound_models.
Este exercício faz parte do curso
Lidando com dados ausentes em R
Instruções do exercício
- Crie um conjunto de dados imputado chamado
ocean_imp_lm_allusando um modelo linear e impute as variáveissea_temp_c,air_temp_cehumiditycom base nas variáveiswind_ew,wind_ns,year,latitude,longitude. - Una todos os conjuntos de dados em um mesmo objeto, chamando-o de
bound_models.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create an imputed dataset using a linear models
ocean_imp_lm_all <- bind_shadow(oceanbuoys) %>%
add_label_shadow() %>%
impute_lm(sea_temp_c ~ wind_ew + wind_ns + ___ + ___ + ___) %>%
impute_lm(air_temp_c ~ wind_ew + wind_ns + ___ + ___ + ___) %>%
impute_lm(humidity ~ wind_ew + wind_ns + ___ + ___ + ___)
# Bind the datasets
bound_models <- bind_rows(cc = ___,
imp_lm_wind = ___,
imp_lm_all = ___,
.id = "imp_model")
# Look at the models
bound_models