Imputação baseada em modelo com múltiplos tipos de variáveis
Mandou muito bem ao escrever a função para implementar imputação por regressão logística com amostragem da distribuição condicional. Você codou estatística de alto nível! Neste exercício, você vai combinar o que aprendeu até aqui sobre imputação baseada em modelo para imputar diferentes tipos de variáveis nos dados tao.
Sua tarefa é iterar sobre as variáveis como você fez no capítulo anterior e imputar duas variáveis:
is_hot, uma nova variável binária criada a partir deair_temp, que vale 1 seair_tempfor maior ou igual a 26 graus e 0 caso contrário;humidity, uma variável contínua com a qual você já está familiarizado.
Você vai precisar usar a função de regressão linear que aprendeu antes, além da sua própria função para regressão logística. Vamos lá!
Este exercício faz parte do curso
Tratamento de Dados Ausentes com Imputações em R
Instruções do exercício
- Defina
is_hotcomoNAnos locais onde ela estava originalmente ausente. - Impute
is_hotcom regressão logística, usandosea_surface_tempcomo único preditor; use sua funçãoimpute_logreg(). - Defina
humiditycomoNAnos locais onde ela estava originalmente ausente. - Impute
humiditycom regressão linear, usandosea_surface_tempeair_tempcomo preditores.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Initialize missing values with hot-deck
tao_imp <- hotdeck(tao)
# Create boolean masks for where is_hot and humidity are missing
missing_is_hot <- tao_imp$is_hot_imp
missing_humidity <- tao_imp$humidity_imp
for (i in 1:3) {
# Set is_hot to NA in places where it was originally missing and re-impute it
___ <- NA
tao_imp <- ___(tao_imp, ___ ~ ___)
# Set humidity to NA in places where it was originally missing and re-impute it
___ <- NA
tao_imp <- ___(tao_imp, ___ ~ sea_surface_temp + ___)
}