Encapsulando imputação e modelagem em uma função
Sempre que você fizer qualquer análise ou modelagem com dados imputados, deve considerar a incerteza da imputação. Rodar um modelo em um conjunto de dados imputado apenas uma vez ignora o fato de que a imputação estima os valores faltantes com incerteza. Os erros-padrão desse tipo de modelo tendem a ficar pequenos demais. A solução é a imputação múltipla, e uma forma de implementá-la é por meio de bootstrapping.
Nos próximos exercícios, você vai trabalhar com o já conhecido conjunto biopics. O objetivo é usar imputação múltipla por bootstrapping e regressão linear para verificar se, com base nos dados disponíveis, filmes biográficos protagonizados por mulheres faturam menos do que aqueles sobre homens.
Vamos começar escrevendo uma função que cria uma amostra bootstrap, faz a imputação e ajusta um modelo de regressão linear.
Este exercício faz parte do curso
Tratamento de Dados Ausentes com Imputações em R
Instruções do exercício
- Faça o fatiamento de
datapara reamostrar as linhas indicadas porindicese atribua o resultado adata_boot. - Impute a amostra bootstrap
data_bootcom imputação kNN usando 5 vizinhos e atribua o resultado adata_imp. - Ajuste um modelo de regressão linear em
data_impque expliqueearningsporsub_sex,sub_typeeyear.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
calc_gender_coef <- function(data, indices) {
# Get bootstrap sample
data_boot <- data[___, ]
# Impute with kNN imputation
data_imp <- ___
# Fit linear regression
linear_model <- ___
# Extract and return gender coefficient
gender_coefficient <- coef(linear_model)[2]
return(gender_coefficient)
}