Görülmüş vs. görülmemiş veri

Modeller, daha önce gördükleri gözlemlerde genellikle daha yüksek doğruluğa sahiptir. Şeker verisinde, Skittles'ın popülerliğini tahmin etmek, Andes Mints'in popülerliğini tahmin etmekten muhtemelen daha doğru olacaktır; çünkü Skittles veri kümesinde var, Andes Mints yok.

X_train veri kümesini kullanarak 50 şeker üzerinden bir model kurdun ve modelin, kurulduğu 50 şekerin popülerliğini ve hiç görmediği 35 şekerin (X_test) popülerliğini ne kadar doğru tahmin ettiğini raporlaman gerekiyor. Doğruluk metriği olarak ortalama mutlak hata mae() kullanacaksın.

Bu egzersiz, kursun bir parçasıdır

Python'da Model Doğrulama

Kursa Göz Atın

Egzersiz talimatları

Girdi verisi olarak X_train ve X_testi kullanarak, model.predict() ile tahmin dizileri oluştur.
Modelin, daha önce gördüğü ve daha önce görmediği veriler üzerindeki doğruluğunu hesapla.
Görülmüş ve görülmemiş veriyi yazdırmak için print ifadelerini kullan.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# The model is fit using X_train and y_train
model.fit(X_train, y_train)

# Create vectors of predictions
train_predictions = model.predict(____)
test_predictions = model.predict(____)

# Train/Test Errors
train_error = mae(y_true=y_train, y_pred=____)
test_error = mae(y_true=y_test, y_pred=____)

# Print the accuracy for seen and unseen data
print("Model error on seen data: {0:.2f}.".format(____))
print("Model error on unseen data: {0:.2f}.".format(____))

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python'da Model Doğrulama

IntermediárioNível de habilidade

4.9+

Kursa Ücretsiz Başla

Modelleri doğrulamadan önce, nasıl oluşturulup kullanılacaklarını anlamamız gerekir. Bu bölüm, scikit-learn ile regresyon ve sınıflandırma modelleri çalıştırmaya giriş sağlar. Bu model kurma temelini, kalan bölümler boyunca kullanacağız.

Exercise 1: Model doğrulamaya giriş Exercise 2: Modelleme adımları Exercise 3: Görülmüş vs. görülmemiş veri

Geçerli egzersiz

Exercise 4: Regresyon modelleri Exercise 5: Parametreleri ayarla ve bir model eğit Exercise 6: Özellik önemleri Exercise 7: Sınıflandırma modelleri Exercise 8: Sınıflandırma tahminleri Exercise 9: Model parametrelerini yeniden kullanma Exercise 10: Rastgele orman sınıflandırıcısı

Bu bölüm, model doğrulamanın temellerine odaklanır. Veriyi eğitim, doğrulama ve test kümelerine ayırmaktan, bias-variance dengesi kavrayışı oluşturmaya kadar, üçüncü bölümde uygulayacağımız K-Fold ve Leave-One-Out doğrulama teknikleri için zemin hazırlarız.

Exercise 1: Eğitim, test ve doğrulama veri kümeleri oluşturma Exercise 2: Tek bir holdout kümesi oluştur Exercise 3: İki holdout kümesi oluştur Exercise 4: Neden ayırma (holdout) kümeleri kullanılır Exercise 5: Doğruluk ölçütleri: regresyon modelleri Exercise 6: Ortalama mutlak hata Exercise 7: Ortalama kare hata Exercise 8: Veri alt kümelerinde performans Exercise 9: Sınıflandırma metrikleri Exercise 10: Karmaşıklık matrisleri Exercise 11: Karışıklık matrisleri, yeniden Exercise 12: Precision ve recall Exercise 13: Bias-variance dengesi Exercise 14: Az/Aşırı uyumdan kaynaklanan hata Exercise 15: Aşırı basitleştiriyor muyum (underfitting)?

Ayrık tutulan (holdout) kümeler model doğrulama için iyi bir başlangıçtır. Ancak tek bir eğitim ve test kümesi kullanmak çoğu zaman yeterli değildir. Çapraz doğrulama, model performansını doğrulamada altın standart kabul edilir ve hiperparametre ayarında neredeyse her zaman kullanılır. Bu bölüm, model performansını doğrulamak için çapraz doğrulamanın uygulanmasına odaklanır.

Exercise 1: Holdout kümeleriyle ilgili sorunlar Exercise 2: İki örneklem Exercise 3: Olası sorunlar Exercise 4: Çapraz doğrulama Exercise 5: scikit-learn'in KFold() yöntemi Exercise 6: KFold indekslerini kullanma Exercise 7: sklearn'in cross_val_score() işlevi Exercise 8: scikit-learn yöntemleri Exercise 9: cross_val_score() uygulaması Exercise 10: Leave-one-out cross-validation (LOOCV)Exercise 11: LOOCV ne zaman kullanılmalı Exercise 12: Leave-one-out-cross-validation

İlk üç bölüm model doğrulama tekniklerine odaklandı. Dördüncü bölümde ise bu teknikleri, özellikle çapraz doğrulamayı, hiperparametre ayarını öğrenirken uygulayacağız. Sonuçta, model doğrulama ayarlamayı mümkün kılar ve genel anlamda en iyi modeli seçmemize yardımcı olur.

Exercise 1: Hiperparametre ayarına giriş Exercise 2: Hiperparametreler Oluşturma Exercise 3: Aralıklar kullanarak bir modeli çalıştırma Exercise 4: RandomizedSearchCV Exercise 5: RandomizedSearch'e Hazırlık Exercise 6: RandomizedSearchCV Uygulama Exercise 7: Nihai modelini seçme Exercise 8: En iyi sınıflandırma doğruluğu Exercise 9: En iyi precision modelini seçmek Exercise 10: Kurs tamamlandı!