scikit-learn'in KFold() yöntemi

Az önce bir meslektaşının, rastgele orman modeli kurup örneklem dışı doğruluğu hesaplayan kodunu çalıştırdın. Meslektaşının kodunda random_state olmadığını ve bulduğun hataların onun rapor ettiklerinden tamamen farklı olduğunu fark ettin.

Bu rastgele orman modelinin yeni veride ne kadar doğru olacağına dair daha iyi bir tahmin elde etmek için KFold çapraz doğrulama için kullanılacak bazı indeksler üretmeye karar verdin.

Bu egzersiz, kursun bir parçasıdır

Python'da Model Doğrulama

Kursa Göz Atın

Egzersiz talimatları

Veriyi beş kat, karıştırma etkin, random_state=1111 olacak şekilde bölmek için KFold() metodunu çağır.
KFold nesnesinin split() metodunu X üzerinde kullan.
Eğitim ve doğrulama indeks listelerindeki indeks sayısını yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

from sklearn.model_selection import KFold

# Use KFold
kf = KFold(____, ____, ____)

# Create splits
splits = kf.____(____)

# Print the number of indices
for train_index, val_index in splits:
    print("Number of training indices: %s" % len(____))
    print("Number of validation indices: %s" % len(____))

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python'da Model Doğrulama

IntermediárioNível de habilidade

4.9+

Kursa Ücretsiz Başla

Modelleri doğrulamadan önce, nasıl oluşturulup kullanılacaklarını anlamamız gerekir. Bu bölüm, scikit-learn ile regresyon ve sınıflandırma modelleri çalıştırmaya giriş sağlar. Bu model kurma temelini, kalan bölümler boyunca kullanacağız.

Exercise 1: Model doğrulamaya giriş Exercise 2: Modelleme adımları Exercise 3: Görülmüş vs. görülmemiş veri Exercise 4: Regresyon modelleri Exercise 5: Parametreleri ayarla ve bir model eğit Exercise 6: Özellik önemleri Exercise 7: Sınıflandırma modelleri Exercise 8: Sınıflandırma tahminleri Exercise 9: Model parametrelerini yeniden kullanma Exercise 10: Rastgele orman sınıflandırıcısı

Bu bölüm, model doğrulamanın temellerine odaklanır. Veriyi eğitim, doğrulama ve test kümelerine ayırmaktan, bias-variance dengesi kavrayışı oluşturmaya kadar, üçüncü bölümde uygulayacağımız K-Fold ve Leave-One-Out doğrulama teknikleri için zemin hazırlarız.

Exercise 1: Eğitim, test ve doğrulama veri kümeleri oluşturma Exercise 2: Tek bir holdout kümesi oluştur Exercise 3: İki holdout kümesi oluştur Exercise 4: Neden ayırma (holdout) kümeleri kullanılır Exercise 5: Doğruluk ölçütleri: regresyon modelleri Exercise 6: Ortalama mutlak hata Exercise 7: Ortalama kare hata Exercise 8: Veri alt kümelerinde performans Exercise 9: Sınıflandırma metrikleri Exercise 10: Karmaşıklık matrisleri Exercise 11: Karışıklık matrisleri, yeniden Exercise 12: Precision ve recall Exercise 13: Bias-variance dengesi Exercise 14: Az/Aşırı uyumdan kaynaklanan hata Exercise 15: Aşırı basitleştiriyor muyum (underfitting)?

Ayrık tutulan (holdout) kümeler model doğrulama için iyi bir başlangıçtır. Ancak tek bir eğitim ve test kümesi kullanmak çoğu zaman yeterli değildir. Çapraz doğrulama, model performansını doğrulamada altın standart kabul edilir ve hiperparametre ayarında neredeyse her zaman kullanılır. Bu bölüm, model performansını doğrulamak için çapraz doğrulamanın uygulanmasına odaklanır.

Exercise 1: Holdout kümeleriyle ilgili sorunlar Exercise 2: İki örneklem Exercise 3: Olası sorunlar Exercise 4: Çapraz doğrulama Exercise 5: scikit-learn'in KFold() yöntemi

Geçerli egzersiz

Exercise 6: KFold indekslerini kullanma Exercise 7: sklearn'in cross_val_score() işlevi Exercise 8: scikit-learn yöntemleri Exercise 9: cross_val_score() uygulaması Exercise 10: Leave-one-out cross-validation (LOOCV)Exercise 11: LOOCV ne zaman kullanılmalı Exercise 12: Leave-one-out-cross-validation

İlk üç bölüm model doğrulama tekniklerine odaklandı. Dördüncü bölümde ise bu teknikleri, özellikle çapraz doğrulamayı, hiperparametre ayarını öğrenirken uygulayacağız. Sonuçta, model doğrulama ayarlamayı mümkün kılar ve genel anlamda en iyi modeli seçmemize yardımcı olur.

Exercise 1: Hiperparametre ayarına giriş Exercise 2: Hiperparametreler Oluşturma Exercise 3: Aralıklar kullanarak bir modeli çalıştırma Exercise 4: RandomizedSearchCV Exercise 5: RandomizedSearch'e Hazırlık Exercise 6: RandomizedSearchCV Uygulama Exercise 7: Nihai modelini seçme Exercise 8: En iyi sınıflandırma doğruluğu Exercise 9: En iyi precision modelini seçmek Exercise 10: Kurs tamamlandı!