ComeçarComece de graça

Imputação baseada em modelo com múltiplos tipos de variáveis

Mandou muito bem ao escrever a função para implementar imputação por regressão logística com amostragem da distribuição condicional. Você codou estatística de alto nível! Neste exercício, você vai combinar o que aprendeu até aqui sobre imputação baseada em modelo para imputar diferentes tipos de variáveis nos dados tao.

Sua tarefa é iterar sobre as variáveis como você fez no capítulo anterior e imputar duas variáveis:

  • is_hot, uma nova variável binária criada a partir de air_temp, que vale 1 se air_temp for maior ou igual a 26 graus e 0 caso contrário;
  • humidity, uma variável contínua com a qual você já está familiarizado.

Você vai precisar usar a função de regressão linear que aprendeu antes, além da sua própria função para regressão logística. Vamos lá!

Este exercício faz parte do curso

Tratamento de Dados Ausentes com Imputações em R

Ver curso

Instruções do exercício

  • Defina is_hot como NA nos locais onde ela estava originalmente ausente.
  • Impute is_hot com regressão logística, usando sea_surface_temp como único preditor; use sua função impute_logreg().
  • Defina humidity como NA nos locais onde ela estava originalmente ausente.
  • Impute humidity com regressão linear, usando sea_surface_temp e air_temp como preditores.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Initialize missing values with hot-deck
tao_imp <- hotdeck(tao)

# Create boolean masks for where is_hot and humidity are missing
missing_is_hot <- tao_imp$is_hot_imp
missing_humidity <- tao_imp$humidity_imp

for (i in 1:3) {
  # Set is_hot to NA in places where it was originally missing and re-impute it
  ___ <- NA
  tao_imp <- ___(tao_imp, ___ ~ ___)
  # Set humidity to NA in places where it was originally missing and re-impute it
  ___ <- NA
  tao_imp <- ___(tao_imp, ___ ~ sea_surface_temp + ___)
}
Editar e executar o código