MAR için t-testi: veri hazırlığı

Son egzersizde eksik veri mekanizmalarını sınıflandırmadaki harika çalışman için tebrikler! Üçü arasında, birçok imputasyon yöntemi verilerin MAR olduğunu varsaydığı için MAR'ı tespit etmek muhtemelen en önemlisidir. Bu egzersiz bu yüzden MAR için test yapmaya odaklanacak.

Aşina olduğun biopics verileriyle çalışacaksın. Amaç, earnings değişkenindeki eksik değer sayısının konu kişinin cinsiyetine göre farklılık gösterip göstermediğini test etmek. Bu egzersizde yalnızca t-testi için veriyi hazırlayacaksın. Önce earnings değişkeninde eksiklik olduğunu belirten bir kukla değişken oluşturacaksın. Ardından, veriyi önce belirli bir cinsiyeti tutacak şekilde filtreleyip sonra bu kukla değişkeni çekerek cinsiyete göre ayıracaksın. Filtreleme için, konsolda biopics'in head() çıktısını yazdırıp cinsiyet değişkenini incelemek faydalı olabilir.

Bu egzersiz, kursun bir parçasıdır

R'de Atamaya Dayalı Eksik Veri Doldurma

Kursa Göz Atın

Egzersiz talimatları

biopics veri kümesine missing_earnings adlı bir değişken daha ekle; earnings eksikse TRUE, değilse FALSE olsun.
Erkekler için missing_earnings değerlerinden bir vektör oluştur ve missing_earnings_males değişkenine ata.
Kadınlar için missing_earnings değerlerinden bir vektör oluştur ve missing_earnings_females değişkenine ata.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create a dummy variable for missing earnings
biopics <- biopics %>% 
  ___(missing_earnings = ___(___))

# Pull the missing earnings dummy for males
missing_earnings_males <- biopics %>% 
  ___(___) %>% 
  ___(___)

# Pull the missing earnings dummy for females
missing_earnings_females <- biopics %>% 
  ___(___) %>% 
  ___(___)

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

R'de Atamaya Dayalı Eksik Veri Doldurma

AvançadoNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu bölümde, bir veri kümesini analiz ederken eksik verinin neden risk oluşturabileceğini göreceksin. Üç eksik veri mekanizmasıyla tanışacak ve bunları istatistiksel testler ve görselleştirme araçlarıyla nasıl tanıyacağını öğreneceksin.

Exercise 1: Eksik veriler: neler ters gidebilir Exercise 2: Eksik verilerle doğrusal regresyon Exercise 3: Regresyon çıktısını analiz etme Exercise 4: Modelleri karşılaştırma Exercise 5: Eksik veri mekanizmaları Exercise 6: Eksik veri mekanizmalarını tanıma Exercise 7: MAR için t-testi: veri hazırlığı

Geçerli egzersiz

Exercise 8: MAR için t-testi: yorumlama Exercise 9: Eksik veri desenlerini görselleştirme Exercise 10: Toplulaştırma grafiği Exercise 11: Spine grafiği Exercise 12: Mozaik grafik

Atama yöntemlerinin sınıflandırmasını tanı ve üç verici tabanlı tekniği öğren: ortalama, hot-deck ve k-En Yakın Komşu ataması. Bu yöntemlerin kaputun altında nasıl çalıştığına bakacak ve ardından gerçek bir tropikal hava durumu veri kümesine nasıl uygulayacağını öğreneceksin. Bu arada, kendi problemlerinde onları daha da etkili hale getirmek için kullanabileceğin yararlı ipuçları da edineceksin.

Exercise 1: Ortalama ile atama Exercise 2: Ortalama atamanın tehlikesini sezmek Exercise 3: Sıcaklığın ortalama ile imputasyonu Exercise 4: Marjin grafiği ile imputasyon kalitesini değerlendirme Exercise 5: Hot-deck atama Exercise 6: Klasik hot-deck Exercise 7: Hot-deck ipuçları ve püf noktaları I: alanlar içinde imputasyon Exercise 8: Hot-deck ipuçları ve püfler II: ilişkili değişkenlere göre sıralama Exercise 9: k-En Yakın Komşu ataması Exercise 10: Komşu sayısını seçmek Exercise 11: kNN ipuçları ve püf noktaları I: bağışçıları ağırlıklandırma Exercise 12: kNN ipuçları ve püfler II: değişkenleri sıralama

Sıra, eksik veriyi doldurmak için doğrusal regresyon, lojistik regresyon ve rastgele ormanlar gibi istatistiksel ve Machine Learning modellerini kullanmayı öğrenmeye geldi. Bu bölümde, modellerin tahminlerini nasıl yaptıklarına bakacak ve bu bilgiyi kullanarak atanan değerleri koşullu dağılımlardan çekmeyi öğreneceksin. Bu önemlidir; çünkü atamalarının daha çeşitli ve makul olmasını sağlar, böylece gerçek veriye daha çok benzerler.

Exercise 1: Model tabanlı doldurma yaklaşımı Exercise 2: Lineer regresyonla atama Exercise 3: Eksik değerleri başlatma ve değişkenler üzerinde yineleme Exercise 4: Yakınsamayı tespit etme Exercise 5: Veri değişkenliğini çoğaltma Exercise 6: Lojistik regresyon ile atama Exercise 7: Koşullu dağılımdan çekim yapmak Exercise 8: Birden çok değişken türüyle model tabanlı imputasyon Exercise 9: Ağaç tabanlı imputasyon Exercise 10: Rastgele ormanlarla imputasyon Exercise 11: Değişken bazında atama hataları Exercise 12: Hız-doğruluk dengesi

Atanan değerler kazınmış bir yazı değildir. Bunlar sadece tahminlerdir ve tahminler bir miktar belirsizlik içerir. Bu son bölümde, mice paketini kullanarak önyükleme (bootstrapping) ve zincirleme denklemlerle atama belirsizliğinin modellerine ve analizlerine nasıl dahil edilebileceğini keşfedecek ve böylece onları daha güvenilir ve sağlam hale getireceksin.

Exercise 1: Bootstrap ile çoklu atama Exercise 2: Atama ve modellemeyi bir fonksiyona sarmalamak Exercise 3: Bootstrap'ı çalıştırma Exercise 4: Bootstrap ile güven aralıkları Exercise 5: Zincirleme denklemlerle çoklu atama Exercise 6: mice akışı: mice - with - pool Exercise 7: Varsayılan modelleri seçmek Exercise 8: Tahminci matrisi kullanma Exercise 9: Hepsini bir araya getirmek Exercise 10: Eksik veri kalıplarını analiz etme Exercise 11: Sonuçları atama ve inceleme Exercise 12: Atanan verilerle çıkarım Exercise 13: Son notlar