ComeçarComece de graça

Encapsulando imputação e modelagem em uma função

Sempre que você fizer qualquer análise ou modelagem com dados imputados, deve considerar a incerteza da imputação. Rodar um modelo em um conjunto de dados imputado apenas uma vez ignora o fato de que a imputação estima os valores faltantes com incerteza. Os erros-padrão desse tipo de modelo tendem a ficar pequenos demais. A solução é a imputação múltipla, e uma forma de implementá-la é por meio de bootstrapping.

Nos próximos exercícios, você vai trabalhar com o já conhecido conjunto biopics. O objetivo é usar imputação múltipla por bootstrapping e regressão linear para verificar se, com base nos dados disponíveis, filmes biográficos protagonizados por mulheres faturam menos do que aqueles sobre homens.

Vamos começar escrevendo uma função que cria uma amostra bootstrap, faz a imputação e ajusta um modelo de regressão linear.

Este exercício faz parte do curso

Tratamento de Dados Ausentes com Imputações em R

Ver curso

Instruções do exercício

  • Faça o fatiamento de data para reamostrar as linhas indicadas por indices e atribua o resultado a data_boot.
  • Impute a amostra bootstrap data_boot com imputação kNN usando 5 vizinhos e atribua o resultado a data_imp.
  • Ajuste um modelo de regressão linear em data_imp que explique earnings por sub_sex, sub_type e year.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

calc_gender_coef <- function(data, indices) {
  # Get bootstrap sample
  data_boot <- data[___, ]
  # Impute with kNN imputation
  data_imp <- ___
  # Fit linear regression
  linear_model <- ___
  # Extract and return gender coefficient
  gender_coefficient <- coef(linear_model)[2]
  return(gender_coefficient)
}
Editar e executar o código