or
Bu egzersiz, kursun bir parçasıdır
Bu bölümde, bir veri kümesini analiz ederken eksik verinin neden risk oluşturabileceğini göreceksin. Üç eksik veri mekanizmasıyla tanışacak ve bunları istatistiksel testler ve görselleştirme araçlarıyla nasıl tanıyacağını öğreneceksin.
Atama yöntemlerinin sınıflandırmasını tanı ve üç verici tabanlı tekniği öğren: ortalama, hot-deck ve k-En Yakın Komşu ataması. Bu yöntemlerin kaputun altında nasıl çalıştığına bakacak ve ardından gerçek bir tropikal hava durumu veri kümesine nasıl uygulayacağını öğreneceksin. Bu arada, kendi problemlerinde onları daha da etkili hale getirmek için kullanabileceğin yararlı ipuçları da edineceksin.
Sıra, eksik veriyi doldurmak için doğrusal regresyon, lojistik regresyon ve rastgele ormanlar gibi istatistiksel ve Machine Learning modellerini kullanmayı öğrenmeye geldi. Bu bölümde, modellerin tahminlerini nasıl yaptıklarına bakacak ve bu bilgiyi kullanarak atanan değerleri koşullu dağılımlardan çekmeyi öğreneceksin. Bu önemlidir; çünkü atamalarının daha çeşitli ve makul olmasını sağlar, böylece gerçek veriye daha çok benzerler.
Atanan değerler kazınmış bir yazı değildir. Bunlar sadece tahminlerdir ve tahminler bir miktar belirsizlik içerir. Bu son bölümde, mice paketini kullanarak önyükleme (bootstrapping) ve zincirleme denklemlerle atama belirsizliğinin modellerine ve analizlerine nasıl dahil edilebileceğini keşfedecek ve böylece onları daha güvenilir ve sağlam hale getireceksin.
Geçerli egzersiz