Atama ve modellemeyi bir fonksiyona sarmalamak
Atama yapılmış veriler üzerinde herhangi bir analiz veya modelleme yaptığında, atamadan kaynaklanan belirsizliği hesaba katmalısın. Sadece bir kez atama yapılmış bir veri kümesi üzerinde model çalıştırmak, atamanın eksik değerleri belirsizlikle tahmin ettiğini göz ardı eder. Böyle bir modelden elde edilen standart hatalar genellikle fazla küçük çıkar. Bunun çözümü çoklu atamadır ve bunu uygulamanın bir yolu bootstrap yöntemidir.
Sıradaki egzersizlerde, aşina olduğun biopics verisiyle çalışacaksın. Amaç, bootstrap ile çoklu atama ve doğrusal regresyon kullanarak, eldeki verilere göre kadınların yer aldığı biyografik filmlerin erkekler hakkındaki filmlere göre daha az kazanıp kazanmadığını görmek.
Hadi, bir bootstrap örneklemi oluşturan, onu atayan ve bir doğrusal regresyon modeli kuran bir fonksiyon yazarak başlayalım.
Bu egzersiz
R'de Atamaya Dayalı Eksik Veri Doldurma
kursunun bir parçasıdırEgzersiz talimatları
indicesile belirtilen satırları yeniden örneklemek içindatayı dilimle ve sonucudata_bootdeğişkenine ata.- Bootstrap örneklemi
data_bootüzerinde 5 komşulu kNN ataması yap ve sonucudata_impdeğişkenine ata. earningsdeğişkeninisub_sex,sub_typeveyearile açıklayan bir doğrusal regresyon modelinidata_impüzerinde kur.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
calc_gender_coef <- function(data, indices) {
# Get bootstrap sample
data_boot <- data[___, ]
# Impute with kNN imputation
data_imp <- ___
# Fit linear regression
linear_model <- ___
# Extract and return gender coefficient
gender_coefficient <- coef(linear_model)[2]
return(gender_coefficient)
}