MAR için t-testi: veri hazırlığı
Son egzersizde eksik veri mekanizmalarını sınıflandırmadaki harika çalışman için tebrikler! Üçü arasında, birçok imputasyon yöntemi verilerin MAR olduğunu varsaydığı için MAR'ı tespit etmek muhtemelen en önemlisidir. Bu egzersiz bu yüzden MAR için test yapmaya odaklanacak.
Aşina olduğun biopics verileriyle çalışacaksın. Amaç, earnings değişkenindeki eksik değer sayısının konu kişinin cinsiyetine göre farklılık gösterip göstermediğini test etmek. Bu egzersizde yalnızca t-testi için veriyi hazırlayacaksın. Önce earnings değişkeninde eksiklik olduğunu belirten bir kukla değişken oluşturacaksın. Ardından, veriyi önce belirli bir cinsiyeti tutacak şekilde filtreleyip sonra bu kukla değişkeni çekerek cinsiyete göre ayıracaksın. Filtreleme için, konsolda biopics'in head() çıktısını yazdırıp cinsiyet değişkenini incelemek faydalı olabilir.
Bu egzersiz
R'de Atamaya Dayalı Eksik Veri Doldurma
kursunun bir parçasıdırEgzersiz talimatları
biopicsveri kümesinemissing_earningsadlı bir değişken daha ekle;earningseksikseTRUE, değilseFALSEolsun.- Erkekler için
missing_earningsdeğerlerinden bir vektör oluştur vemissing_earnings_malesdeğişkenine ata. - Kadınlar için
missing_earningsdeğerlerinden bir vektör oluştur vemissing_earnings_femalesdeğişkenine ata.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a dummy variable for missing earnings
biopics <- biopics %>%
___(missing_earnings = ___(___))
# Pull the missing earnings dummy for males
missing_earnings_males <- biopics %>%
___(___) %>%
___(___)
# Pull the missing earnings dummy for females
missing_earnings_females <- biopics %>%
___(___) %>%
___(___)