Sınıf dengesizliklerinden kaçınma

Bazı verilerde sonuçlar çok dengesiz olabilir — nadir bir hastalık veri kümesi gibi. Rastgele böldüğünde, çok talihsiz bir bölme elde edebilirsin. Düşünsene, tüm nadir gözlemler test setinde, eğitim setinde ise hiç yok. Bu, tüm eğitim sürecini berbat eder!

Neyse ki, initial_split() fonksiyonu bunun için bir çözüm sunar. Bu egzersizde, bu tür sınıf dengesizliklerini gözlemleyip çözeceksin.

%75 eğitim ve %25 test bölmesiyle bir diabetes_split nesnesi oluşturmak için gereken kod zaten sağlandı.

Bu egzersiz, kursun bir parçasıdır

R ile Ağaç Tabanlı Modellerle Machine Learning

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Preparation
set.seed(9888)
diabetes_split <- initial_split(diabetes, prop = 0.75)

# Proportion of 'yes' outcomes in the training data
counts_train <- table(training(___)$outcome)
prop_yes_train <- counts_train["___"] / sum(counts_train)

# Proportion of 'yes' outcomes in the test data
counts_test <- table(___)
prop_yes_test <- ___ / sum(___)

paste("Proportion of positive outcomes in training set:", round(prop_yes_train, 2))
paste("Proportion of positive outcomes in test set:", round(prop_yes_test, 2))

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

R ile Ağaç Tabanlı Modellerle Machine Learning

InicianteNível de habilidade

4.9+

Kursa Ücretsiz Başla

Gerçek bir Machine Learning hattı kurmaya hazır mısın? Adım adım egzersizlerle karar ağaçları oluşturmayı, verini bölmeyi ve diyabet riski en yüksek hastaları tahmin etmeyi öğren. Son olarak, modellerini değerlendirmek ve tahminlerini yargılamak için performans ölçüleri oluşturacaksın.

Exercise 1: Kursa hoş geldin!Exercise 2: Neden ağaç tabanlı yöntemler?Exercise 3: Ağacı belirle Exercise 4: Modeli eğit Exercise 5: Ağacını nasıl büyütürsün Exercise 6: Eğitim/test bölmesi Exercise 7: Sınıf dengesizliklerinden kaçınma

Geçerli egzersiz

Exercise 8: Sıfırdan zirveye Exercise 9: Tahmin et ve değerlendir Exercise 10: Tahmin yap Exercise 11: Matrisi çöz Exercise 12: Doğru mu tahmin ediyorsun?

Biraz şekerlemeye hazır mısın? Bir çikolata derecelendirme veri kümesini kullanarak regresyon ağaçları kur ve uygun hata ölçüleriyle performanslarını değerlendir. Çapraz doğrulama gibi tatlı teknikleri uygulayarak tek bir eğitim/test bölmesinin istatistiksel belirsizliklerini aşacak ve ardından yanlılık-varyans dengesi konusuna derinlemesine ineceksin.

Exercise 1: Sürekli çıktılar Exercise 2: Bir regresyon ağacı eğit Exercise 3: Yeni değerleri tahmin et Exercise 4: Model çıktısını incele Exercise 5: Regresyon ağaçları için performans ölçütleri Exercise 6: Örnek içi performans Exercise 7: Örnek dışı performans Exercise 8: Büyük hatalar, büyük ceza Exercise 9: Çapraz doğrulama Exercise 10: Katmanları oluştur Exercise 11: Katları uydur Exercise 12: Katlamaları değerlendir Exercise 13: Sapma-varyans dengesi Exercise 14: Adlarıyla çağır Exercise 15: Model karmaşıklığını ayarla Exercise 16: Örnek içi ve örnek dışı performans

Hiperparametrelerini ciddiyetle ayarlama ve alıcı işletim karakteristik (ROC) eğrilerini yorumlama zamanı. Bu bölümde, bagging veya rastgele ormanlar gibi topluluk modelleriyle kalabalığın bilgeliğinden yararlanacak ve hangi kredi kartı müşterilerinin kayba en yatkın olduğunu öngören topluluklar kuracaksın.

Exercise 1: Hiperparametreleri ayarlama Exercise 2: Bir ayar ızgarası oluştur Exercise 3: Izgara boyunca ayarla Exercise 4: Kazananı seç Exercise 5: Daha fazla model ölçütü Exercise 6: Özgüllüğü (specificity) hesapla Exercise 7: ROC eğrisini çiz Exercise 8: ROC eğrisi altında kalan alan Exercise 9: Torbalanmış ağaçlar Exercise 10: Bagging ağaçları oluştur Exercise 11: Örnek içi ROC ve AUC Exercise 12: Aşırı uyumu kontrol et Exercise 13: Rastgele orman Exercise 14: Çantalanmış ağaçlar ve rastgele orman Exercise 15: Değişken önemi

Ağaç tabanlı modellerin yüksek sosyetesine hazır mısın? Gördüğünden ya da oluşturduğundan daha iyi performans gösteren güçlü topluluklar yaratmak için gradyan artırmayı uygula. İnce ayarlarını ve üretime almak için bir kazanan seçmek üzere farklı modelleri nasıl karşılaştıracağını öğren.

Exercise 1: Boosting’e giriş Exercise 2: Bagging vs. boosting Exercise 3: Boosted bir topluluk belirt Exercise 4: Gradient boosting Exercise 5: Güçlendirilmiş bir ensemble eğit Exercise 6: Ansambılı değerlendir Exercise 7: Tek bir sınıflandırıcıyla karşılaştır Exercise 8: Boosted topluluğu optimize et Exercise 9: Ayara hazırlık Exercise 10: Gerçek ayarlama Exercise 11: Modeli sonlandır Exercise 12: Model karşılaştırması Exercise 13: AUC'yi karşılaştır Exercise 14: ROC eğrilerini çiz Exercise 15: Kapanış