Imputação com regressão logística

Uma escolha popular para imputar variáveis binárias é a regressão logística. Infelizmente, não existe uma função semelhante à impute_lm() que faça isso. Por isso, você vai escrever essa função!

Vamos chamar a função de impute_logreg(). Seu primeiro argumento será um data frame df, cujos valores ausentes já foram inicializados e que só contenha valores ausentes na coluna a ser imputada. O segundo argumento será uma formula para o modelo de regressão logística.

A função fará o seguinte:

Guardar as posições dos valores ausentes.
Construir o modelo.
Fazer previsões.
Substituir os valores ausentes pelas previsões.

Não se preocupe com a linha que cria imp_var — é apenas uma forma de extrair o nome da coluna a imputar a partir da fórmula. Vamos fazer um pouco de programação funcional!

Este exercício faz parte do curso

Tratamento de Dados Ausentes com Imputações em R

Instruções do exercício

Crie uma máscara booleana indicando onde df[imp_var] está ausente e atribua a missing_imp_var.
Ajuste um modelo de regressão logística usando a fórmula e os dados que a função receberá como argumentos, lembrando de definir o family correto para garantir que uma regressão logística seja ajustada (passe sem aspas); atribua o modelo a logreg_model.
Prediga a resposta com o modelo e atribua a preds; lembre-se de definir o type de previsão apropriado.
Use preds junto com missing_imp_var para imputar os valores ausentes.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

impute_logreg <- function(df, formula) {
  # Extract name of response variable
  imp_var <- as.character(formula[2])
  # Save locations where the response is missing
  missing_imp_var <- ___
  # Fit logistic regression mode
  logreg_model <- ___(___, data = ___, family = ___)
  # Predict the response and convert it to 0s and 1s
  preds <- predict(___, type = ___)
  preds <- ifelse(preds >= 0.5, 1, 0)
  # Impute missing values with predictions
  df[missing_imp_var, imp_var] <-___[___]
  return(df)
}

Editar e executar o código

Este exercício faz parte do curso

Tratamento de Dados Ausentes com Imputações em R

AvançadoNível de habilidade

4.8+

Iniciar curso de graça

Neste capítulo, você vai entender por que dados ausentes podem representar um risco ao analisar um conjunto de dados. Você será apresentado aos três mecanismos de ausência de dados e aprenderá a reconhecê-los usando testes estatísticos e ferramentas de visualização.

Exercise 1: Dados ausentes: o que pode dar errado Exercise 2: Regressão linear com dados incompletos Exercise 3: Analisando a saída da regressão Exercise 4: Comparando modelos Exercise 5: Mecanismos de dados ausentes Exercise 6: Reconhecendo mecanismos de dados ausentes Exercise 7: teste t para MAR: preparação dos dados Exercise 8: teste t para MAR: interpretação Exercise 9: Visualizando padrões de dados ausentes Exercise 10: Gráfico de agregação Exercise 11: Gráfico spine Exercise 12: Gráfico mosaico

Conheça a taxonomia dos métodos de imputação e aprenda três técnicas baseadas em doadores: imputação pela média, hot-deck e k-Nearest-Neighbors. Você vai abrir a caixa-preta para ver como esses métodos funcionam antes de aplicá-los a um conjunto de dados de clima tropical do mundo real. No caminho, também vai aprender truques úteis para fazê-los funcionar ainda melhor nos seus problemas.

Exercise 1: Imputação pela média Exercise 2: Sentindo o perigo da imputação pela média Exercise 3: Imputando a média da temperatura Exercise 4: Avaliando a qualidade da imputação com margin plot Exercise 5: Imputação por hot-deck Exercise 6: Hot-deck simples Exercise 7: Dicas e truques de hot-deck I: imputando dentro de domínios Exercise 8: Dicas e truques de hot-deck II: ordenando por variáveis correlacionadas Exercise 9: Imputação por k-Nearest-Neighbors Exercise 10: Escolhendo o número de vizinhos Exercise 11: Dicas e truques do kNN I: ponderando doadores Exercise 12: Dicas e truques de kNN II: ordenando variáveis

Chegou a hora de aprender a usar modelos estatísticos e de Machine Learning, como regressão linear, regressão logística e random forests, para imputar dados ausentes. Neste capítulo, você vai explorar como os modelos fazem suas previsões e usar esse conhecimento para sortear os valores imputados de distribuições condicionais. Isso é importante porque garante que suas imputações sejam mais variadas e plausíveis, tornando-as mais próximas dos dados verdadeiros.

Exercise 1: Abordagem de imputação baseada em modelo Exercise 2: Imputação com regressão linear Exercise 3: Inicializando valores ausentes e iterando sobre variáveis Exercise 4: Detectando convergência Exercise 5: Replicando a variabilidade dos dados Exercise 6: Imputação com regressão logística

Exercício atual

Exercise 7: Amostrando da distribuição condicional Exercise 8: Imputação baseada em modelo com múltiplos tipos de variáveis Exercise 9: Imputação baseada em árvores Exercise 10: Imputando com random forests Exercise 11: Erros de imputação por variável Exercise 12: Compensação entre velocidade e precisão

Valores imputados não são imutáveis. Eles são apenas estimativas, e estimativas vêm com incerteza. Neste capítulo final, você vai descobrir como o bootstrapping e as equações encadeadas com o pacote mice podem ser usados para incorporar a incerteza da imputação em seus modelos e análises, tornando-os mais confiáveis e robustos.

Exercise 1: Imputação múltipla por bootstrapping Exercise 2: Encapsulando imputação e modelagem em uma função Exercise 3: Executando o bootstrap Exercise 4: Intervalos de confiança por bootstrapping Exercise 5: Imputação múltipla por equações encadeadas Exercise 6: O fluxo do mice: mice - with - pool Exercise 7: Escolhendo modelos padrão Exercise 8: Usando a matriz de preditores Exercise 9: Juntando tudo Exercise 10: Analisando padrões de dados ausentes Exercise 11: Imputando e inspecionando resultados Exercise 12: Inferência com dados imputados Exercise 13: Considerações finais