Membungkus imputasi & pemodelan ke dalam sebuah fungsi
Setiap kali Anda melakukan analisis atau pemodelan pada data yang telah diimputasi, Anda harus memperhitungkan ketidakpastian dari imputasi. Menjalankan model pada himpunan data yang hanya diimputasi sekali mengabaikan fakta bahwa imputasi memperkirakan nilai hilang dengan ketidakpastian. Galat baku dari model seperti ini cenderung terlalu kecil. Solusinya adalah imputasi berganda, dan salah satu cara menerapkannya adalah dengan bootstrapping.
Dalam latihan-latihan berikut, Anda akan bekerja dengan data biopics yang sudah familiar. Tujuannya adalah menggunakan imputasi berganda dengan bootstrapping dan regresi linear untuk melihat apakah, berdasarkan data yang tersedia, film biografi yang menampilkan perempuan menghasilkan pendapatan lebih rendah dibandingkan yang menampilkan laki-laki.
Mari mulai dengan menulis sebuah fungsi yang membuat sampel bootstrap, melakukan imputasi, dan menyesuaikan model regresi linear.
Latihan ini adalah bagian dari kursus
Menangani Data Hilang dengan Imputasi di R
Petunjuk latihan
- Iris
datauntuk mengambil ulang baris-baris yang ditunjukkan olehindicesdan simpan hasilnya kedata_boot. - Imputasi sampel bootstrap
data_bootdengan imputasi kNN menggunakan 5 tetangga dan simpan hasilnya kedata_imp. - Sesuaikan model regresi linear pada
data_impyang menjelaskanearningsdengansub_sex,sub_type, danyear.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
calc_gender_coef <- function(data, indices) {
# Get bootstrap sample
data_boot <- data[___, ]
# Impute with kNN imputation
data_imp <- ___
# Fit linear regression
linear_model <- ___
# Extract and return gender coefficient
gender_coefficient <- coef(linear_model)[2]
return(gender_coefficient)
}