kNN ipuçları ve püfler II: değişkenleri sıralama

k-Nearest Neighbors algoritması, verideki değişkenler üzerinde dolaşarak onları doldururken, gözlemler arası mesafeleri diğer değişkenleri kullanarak hesaplar; bu değişkenlerin bir kısmı önceki adımlarda zaten tamamlanmıştır. Bu, eğer veride daha önce yer alan değişkenlerde çok sayıda eksik değer varsa, takip eden mesafe hesaplamasının büyük ölçüde tamamlanmış değerlere dayanacağı anlamına gelir. Bu da mesafe hesabına gürültü katar.

Bu nedenle, kNN ile tamamlama yapmadan önce değişkenleri eksik değer sayısına göre artan şekilde sıralamak iyi bir uygulamadır. Böylece her mesafe hesabı olabildiğince çok gözlenen veriye ve olabildiğince az tamamlanmış değere dayanır.

Hadi bunu tao verisi üzerinde deneyelim!

Bu egzersiz, kursun bir parçasıdır

R'de Atamaya Dayalı Eksik Veri Doldurma

Kursa Göz Atın

Egzersiz talimatları

İlk aşamada, tao içindeki her sütundaki eksik değerlerin sayısını hesapla.
Ardından, değişkenleri eksik değer sayısına göre artan şekilde sırala, adlarını çıkar ve sonucu vars_by_NAs değişkenine ata.
select() kullanarak tao değişkenlerini vars_by_NAs içinde kayıtlı sıraya göre yeniden düzenle.
Yeniden sıralanmış veri üzerinde k-Nearest Neighbors tamamlama yap ve sonucu tao_imp değişkenine ata.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Get tao variable names sorted by number of NAs
vars_by_NAs <- tao %>%
  ___ %>%
  colSums() %>%
  sort(decreasing = ___) %>% 
  names()

# Sort tao variables and feed it to kNN imputation
tao_imp <- tao %>% 
  select(___) %>% 
  ___()

tao_imp %>% 
	select(sea_surface_temp, humidity, humidity_imp) %>% 
	marginplot(delimiter = "imp")

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

R'de Atamaya Dayalı Eksik Veri Doldurma

AvançadoNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu bölümde, bir veri kümesini analiz ederken eksik verinin neden risk oluşturabileceğini göreceksin. Üç eksik veri mekanizmasıyla tanışacak ve bunları istatistiksel testler ve görselleştirme araçlarıyla nasıl tanıyacağını öğreneceksin.

Exercise 1: Eksik veriler: neler ters gidebilir Exercise 2: Eksik verilerle doğrusal regresyon Exercise 3: Regresyon çıktısını analiz etme Exercise 4: Modelleri karşılaştırma Exercise 5: Eksik veri mekanizmaları Exercise 6: Eksik veri mekanizmalarını tanıma Exercise 7: MAR için t-testi: veri hazırlığı Exercise 8: MAR için t-testi: yorumlama Exercise 9: Eksik veri desenlerini görselleştirme Exercise 10: Toplulaştırma grafiği Exercise 11: Spine grafiği Exercise 12: Mozaik grafik

Atama yöntemlerinin sınıflandırmasını tanı ve üç verici tabanlı tekniği öğren: ortalama, hot-deck ve k-En Yakın Komşu ataması. Bu yöntemlerin kaputun altında nasıl çalıştığına bakacak ve ardından gerçek bir tropikal hava durumu veri kümesine nasıl uygulayacağını öğreneceksin. Bu arada, kendi problemlerinde onları daha da etkili hale getirmek için kullanabileceğin yararlı ipuçları da edineceksin.

Exercise 1: Ortalama ile atama Exercise 2: Ortalama atamanın tehlikesini sezmek Exercise 3: Sıcaklığın ortalama ile imputasyonu Exercise 4: Marjin grafiği ile imputasyon kalitesini değerlendirme Exercise 5: Hot-deck atama Exercise 6: Klasik hot-deck Exercise 7: Hot-deck ipuçları ve püf noktaları I: alanlar içinde imputasyon Exercise 8: Hot-deck ipuçları ve püfler II: ilişkili değişkenlere göre sıralama Exercise 9: k-En Yakın Komşu ataması Exercise 10: Komşu sayısını seçmek Exercise 11: kNN ipuçları ve püf noktaları I: bağışçıları ağırlıklandırma Exercise 12: kNN ipuçları ve püfler II: değişkenleri sıralama

Geçerli egzersiz

Sıra, eksik veriyi doldurmak için doğrusal regresyon, lojistik regresyon ve rastgele ormanlar gibi istatistiksel ve Machine Learning modellerini kullanmayı öğrenmeye geldi. Bu bölümde, modellerin tahminlerini nasıl yaptıklarına bakacak ve bu bilgiyi kullanarak atanan değerleri koşullu dağılımlardan çekmeyi öğreneceksin. Bu önemlidir; çünkü atamalarının daha çeşitli ve makul olmasını sağlar, böylece gerçek veriye daha çok benzerler.

Exercise 1: Model tabanlı doldurma yaklaşımı Exercise 2: Lineer regresyonla atama Exercise 3: Eksik değerleri başlatma ve değişkenler üzerinde yineleme Exercise 4: Yakınsamayı tespit etme Exercise 5: Veri değişkenliğini çoğaltma Exercise 6: Lojistik regresyon ile atama Exercise 7: Koşullu dağılımdan çekim yapmak Exercise 8: Birden çok değişken türüyle model tabanlı imputasyon Exercise 9: Ağaç tabanlı imputasyon Exercise 10: Rastgele ormanlarla imputasyon Exercise 11: Değişken bazında atama hataları Exercise 12: Hız-doğruluk dengesi

Atanan değerler kazınmış bir yazı değildir. Bunlar sadece tahminlerdir ve tahminler bir miktar belirsizlik içerir. Bu son bölümde, mice paketini kullanarak önyükleme (bootstrapping) ve zincirleme denklemlerle atama belirsizliğinin modellerine ve analizlerine nasıl dahil edilebileceğini keşfedecek ve böylece onları daha güvenilir ve sağlam hale getireceksin.

Exercise 1: Bootstrap ile çoklu atama Exercise 2: Atama ve modellemeyi bir fonksiyona sarmalamak Exercise 3: Bootstrap'ı çalıştırma Exercise 4: Bootstrap ile güven aralıkları Exercise 5: Zincirleme denklemlerle çoklu atama Exercise 6: mice akışı: mice - with - pool Exercise 7: Varsayılan modelleri seçmek Exercise 8: Tahminci matrisi kullanma Exercise 9: Hepsini bir araya getirmek Exercise 10: Eksik veri kalıplarını analiz etme Exercise 11: Sonuçları atama ve inceleme Exercise 12: Atanan verilerle çıkarım Exercise 13: Son notlar