Az/Aşırı uyumdan kaynaklanan hata

Şekerleme veri kümesi aşırı uyuma çok müsait. Yalnızca 85 gözlem varken test veri kümesi için %20 ayırırsan, modelleme için kullanılabilecek çok değerli veriyi kaybedersin. Çikolatalı şekerlemelerin çoğunun eğitim verisine, çok azının da bekletme (holdout) örneğine düştüğü bir senaryoyu düşün. Modelimiz çikolatanın hayati bir etken olduğunu yalnızca görebilir, ama diğer özelliklerin de önemli olduğunu yakalayamayabilir. Bu egzersizde, bir random forest modelinde çok fazla özellik (sütun) kullanmanın nasıl aşırı uyuma yol açabileceğini inceleyeceksin.

Bir özellik, karar ağacında verinin hangi sütunlarının kullanıldığını ifade eder. max_features parametresi kullanılabilir özellik sayısını sınırlar.

Bu egzersiz, kursun bir parçasıdır

Python'da Model Doğrulama

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Update the rfr model
rfr = RandomForestRegressor(____=25,
                            ____=1111,
                            ____=2)
rfr.fit(X_train, y_train)

# Print the training and testing accuracies 
print('The training error is {0:.2f}'.format(
  mae(y_train, rfr.predict(X_train))))
print('The testing error is {0:.2f}'.format(
  mae(y_test, rfr.predict(X_test))))

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python'da Model Doğrulama

IntermediárioNível de habilidade

4.9+

Kursa Ücretsiz Başla

Modelleri doğrulamadan önce, nasıl oluşturulup kullanılacaklarını anlamamız gerekir. Bu bölüm, scikit-learn ile regresyon ve sınıflandırma modelleri çalıştırmaya giriş sağlar. Bu model kurma temelini, kalan bölümler boyunca kullanacağız.

Exercise 1: Model doğrulamaya giriş Exercise 2: Modelleme adımları Exercise 3: Görülmüş vs. görülmemiş veri Exercise 4: Regresyon modelleri Exercise 5: Parametreleri ayarla ve bir model eğit Exercise 6: Özellik önemleri Exercise 7: Sınıflandırma modelleri Exercise 8: Sınıflandırma tahminleri Exercise 9: Model parametrelerini yeniden kullanma Exercise 10: Rastgele orman sınıflandırıcısı

Bu bölüm, model doğrulamanın temellerine odaklanır. Veriyi eğitim, doğrulama ve test kümelerine ayırmaktan, bias-variance dengesi kavrayışı oluşturmaya kadar, üçüncü bölümde uygulayacağımız K-Fold ve Leave-One-Out doğrulama teknikleri için zemin hazırlarız.

Exercise 1: Eğitim, test ve doğrulama veri kümeleri oluşturma Exercise 2: Tek bir holdout kümesi oluştur Exercise 3: İki holdout kümesi oluştur Exercise 4: Neden ayırma (holdout) kümeleri kullanılır Exercise 5: Doğruluk ölçütleri: regresyon modelleri Exercise 6: Ortalama mutlak hata Exercise 7: Ortalama kare hata Exercise 8: Veri alt kümelerinde performans Exercise 9: Sınıflandırma metrikleri Exercise 10: Karmaşıklık matrisleri Exercise 11: Karışıklık matrisleri, yeniden Exercise 12: Precision ve recall Exercise 13: Bias-variance dengesi Exercise 14: Az/Aşırı uyumdan kaynaklanan hata

Geçerli egzersiz

Exercise 15: Aşırı basitleştiriyor muyum (underfitting)?

Ayrık tutulan (holdout) kümeler model doğrulama için iyi bir başlangıçtır. Ancak tek bir eğitim ve test kümesi kullanmak çoğu zaman yeterli değildir. Çapraz doğrulama, model performansını doğrulamada altın standart kabul edilir ve hiperparametre ayarında neredeyse her zaman kullanılır. Bu bölüm, model performansını doğrulamak için çapraz doğrulamanın uygulanmasına odaklanır.

Exercise 1: Holdout kümeleriyle ilgili sorunlar Exercise 2: İki örneklem Exercise 3: Olası sorunlar Exercise 4: Çapraz doğrulama Exercise 5: scikit-learn'in KFold() yöntemi Exercise 6: KFold indekslerini kullanma Exercise 7: sklearn'in cross_val_score() işlevi Exercise 8: scikit-learn yöntemleri Exercise 9: cross_val_score() uygulaması Exercise 10: Leave-one-out cross-validation (LOOCV)Exercise 11: LOOCV ne zaman kullanılmalı Exercise 12: Leave-one-out-cross-validation

İlk üç bölüm model doğrulama tekniklerine odaklandı. Dördüncü bölümde ise bu teknikleri, özellikle çapraz doğrulamayı, hiperparametre ayarını öğrenirken uygulayacağız. Sonuçta, model doğrulama ayarlamayı mümkün kılar ve genel anlamda en iyi modeli seçmemize yardımcı olur.

Exercise 1: Hiperparametre ayarına giriş Exercise 2: Hiperparametreler Oluşturma Exercise 3: Aralıklar kullanarak bir modeli çalıştırma Exercise 4: RandomizedSearchCV Exercise 5: RandomizedSearch'e Hazırlık Exercise 6: RandomizedSearchCV Uygulama Exercise 7: Nihai modelini seçme Exercise 8: En iyi sınıflandırma doğruluğu Exercise 9: En iyi precision modelini seçmek Exercise 10: Kurs tamamlandı!