Komşu sayısını seçmek

k-Nearest-Neighbors (ya da kNN) ataması, bir gözlemdeki eksik değerleri, ona en çok benzeyen diğer k gözlemden gelen değerlere göre doldurur. Bu benzer gözlemlerin sayısı, yani dikkate alınan komşular, önceden seçilmesi gereken bir parametredir.

Peki k nasıl seçilir? Bir yol, farklı değerleri denemek ve bunların, atanan ve gözlenen veriler arasındaki ilişkiyi nasıl etkilediğine bakmaktır.

Hadi tao verisinde humidity değişkenini üç farklı k değeriyle atayalım ve atanan değerlerin humidity ile sea_surface_temp arasındaki ilişkiye ne kadar iyi uyduğunu görelim.

Bu egzersiz, kursun bir parçasıdır

R'de Atamaya Dayalı Eksik Veri Doldurma

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Impute humidity using 30 neighbors
tao_imp <- ___(tao, k = ___, variable = ___)

# Draw a margin plot of sea_surface_temp vs humidity
tao_imp %>% 
	select(sea_surface_temp, humidity, humidity_imp) %>% 
	___(delimiter = "imp", main = "k = 30")

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

R'de Atamaya Dayalı Eksik Veri Doldurma

AvançadoNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu bölümde, bir veri kümesini analiz ederken eksik verinin neden risk oluşturabileceğini göreceksin. Üç eksik veri mekanizmasıyla tanışacak ve bunları istatistiksel testler ve görselleştirme araçlarıyla nasıl tanıyacağını öğreneceksin.

Exercise 1: Eksik veriler: neler ters gidebilir Exercise 2: Eksik verilerle doğrusal regresyon Exercise 3: Regresyon çıktısını analiz etme Exercise 4: Modelleri karşılaştırma Exercise 5: Eksik veri mekanizmaları Exercise 6: Eksik veri mekanizmalarını tanıma Exercise 7: MAR için t-testi: veri hazırlığı Exercise 8: MAR için t-testi: yorumlama Exercise 9: Eksik veri desenlerini görselleştirme Exercise 10: Toplulaştırma grafiği Exercise 11: Spine grafiği Exercise 12: Mozaik grafik

Atama yöntemlerinin sınıflandırmasını tanı ve üç verici tabanlı tekniği öğren: ortalama, hot-deck ve k-En Yakın Komşu ataması. Bu yöntemlerin kaputun altında nasıl çalıştığına bakacak ve ardından gerçek bir tropikal hava durumu veri kümesine nasıl uygulayacağını öğreneceksin. Bu arada, kendi problemlerinde onları daha da etkili hale getirmek için kullanabileceğin yararlı ipuçları da edineceksin.

Exercise 1: Ortalama ile atama Exercise 2: Ortalama atamanın tehlikesini sezmek Exercise 3: Sıcaklığın ortalama ile imputasyonu Exercise 4: Marjin grafiği ile imputasyon kalitesini değerlendirme Exercise 5: Hot-deck atama Exercise 6: Klasik hot-deck Exercise 7: Hot-deck ipuçları ve püf noktaları I: alanlar içinde imputasyon Exercise 8: Hot-deck ipuçları ve püfler II: ilişkili değişkenlere göre sıralama Exercise 9: k-En Yakın Komşu ataması Exercise 10: Komşu sayısını seçmek

Geçerli egzersiz

Exercise 11: kNN ipuçları ve püf noktaları I: bağışçıları ağırlıklandırma Exercise 12: kNN ipuçları ve püfler II: değişkenleri sıralama

Sıra, eksik veriyi doldurmak için doğrusal regresyon, lojistik regresyon ve rastgele ormanlar gibi istatistiksel ve Machine Learning modellerini kullanmayı öğrenmeye geldi. Bu bölümde, modellerin tahminlerini nasıl yaptıklarına bakacak ve bu bilgiyi kullanarak atanan değerleri koşullu dağılımlardan çekmeyi öğreneceksin. Bu önemlidir; çünkü atamalarının daha çeşitli ve makul olmasını sağlar, böylece gerçek veriye daha çok benzerler.

Exercise 1: Model tabanlı doldurma yaklaşımı Exercise 2: Lineer regresyonla atama Exercise 3: Eksik değerleri başlatma ve değişkenler üzerinde yineleme Exercise 4: Yakınsamayı tespit etme Exercise 5: Veri değişkenliğini çoğaltma Exercise 6: Lojistik regresyon ile atama Exercise 7: Koşullu dağılımdan çekim yapmak Exercise 8: Birden çok değişken türüyle model tabanlı imputasyon Exercise 9: Ağaç tabanlı imputasyon Exercise 10: Rastgele ormanlarla imputasyon Exercise 11: Değişken bazında atama hataları Exercise 12: Hız-doğruluk dengesi

Atanan değerler kazınmış bir yazı değildir. Bunlar sadece tahminlerdir ve tahminler bir miktar belirsizlik içerir. Bu son bölümde, mice paketini kullanarak önyükleme (bootstrapping) ve zincirleme denklemlerle atama belirsizliğinin modellerine ve analizlerine nasıl dahil edilebileceğini keşfedecek ve böylece onları daha güvenilir ve sağlam hale getireceksin.

Exercise 1: Bootstrap ile çoklu atama Exercise 2: Atama ve modellemeyi bir fonksiyona sarmalamak Exercise 3: Bootstrap'ı çalıştırma Exercise 4: Bootstrap ile güven aralıkları Exercise 5: Zincirleme denklemlerle çoklu atama Exercise 6: mice akışı: mice - with - pool Exercise 7: Varsayılan modelleri seçmek Exercise 8: Tahminci matrisi kullanma Exercise 9: Hepsini bir araya getirmek Exercise 10: Eksik veri kalıplarını analiz etme Exercise 11: Sonuçları atama ve inceleme Exercise 12: Atanan verilerle çıkarım Exercise 13: Son notlar