İlk pipeline'ını oluştur

Bir çalışma arkadaşın kredi skorlama veri kümesi için AdaBoostClassifier kullanmış. Sen de bir random forest sınıflandırıcıyı denemek istiyorsun. Bu egzersizde, bu sınıflandırıcıyı veriye uyduracak ve AdaBoostClassifier ile karşılaştıracaksın. Aşırı uyumu önlemek için eğitim/test veri bölme yöntemini kullandığından emin ol. Veriler önceden yüklenmiş ve tüm özellikler sayısal olacak şekilde dönüştürülmüş durumda. Özellikler X, etiketler y olarak mevcut. RandomForestClassifier modülü de önceden yüklendi.

Bu egzersiz, kursun bir parçasıdır

Python'da Machine Learning İş Akışları Tasarlama

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Split the data into train and test, with 20% as test
X_train, ____, ____, y_test = train_test_split(
  X, y, ____=0.2, random_state=1)

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python'da Machine Learning İş Akışları Tasarlama

AvançadoNível de habilidade

4.8+

94 reviews

Kursa Ücretsiz Başla

Bu bölümde, denetimli öğrenme iş akışının temellerini; model eğitme, ayarlama ve seçimiyle birlikte öznitelik (feature) mühendisliği ve seçimi ile veri bölme tekniklerini yeniden hatırlayacaksın. Bir iş akışındaki bu adımların birbirine nasıl bağlı olduğunu anlayacak ve tümünün aşırı uyumla (overfitting) nasıl mücadele edebileceğini ya da ona nasıl zemin hazırlayabileceğini fark edeceksin: veri bilimcisinin en büyük düşmanı. Bölümün sonunda, denetimli öğrenmede akıcı hale gelecek ve sonraki bölümlerdeki daha ileri düzey içeriklere dalmaya hazır olacaksın.

Exercise 1: Denetimli öğrenme işlem hatları Exercise 2: Özellik mühendisliği Exercise 3: İlk pipeline'ını oluştur

Geçerli egzersiz

Exercise 4: Model karmaşıklığı ve aşırı uyum Exercise 5: Model karmaşıklığı için grid search CV Exercise 6: Ağaç ve estimator sayısı Exercise 7: Özellik mühendisliği ve aşırı öğrenme Exercise 8: Kategorik kodlamalar Exercise 9: Özellik dönüşümleri Exercise 10: Hepsini bir araya getirmek

Önceki bölümde, standart denetimli öğrenme iş akışları konusundaki bilgini pekiştirdin. Bu bölümde, uzman bilgisinin denetimli öğrenmeye hangi yollarla dahil edildiğini eleştirel biçimde inceleyeceksin. Bu; birden fazla veri kaynağı arasında özellik mühendisliği gerektirebilecek uygun analiz biriminin belirlenmesiyle, örneklerin bazen kusurlu etiketlenme süreciyle ve Machine Learning modelinin yaptığı hataların gerçek iş değerini yakalayan bir kayıp fonksiyonunun tanımlanmasıyla yapılır.

Exercise 1: Veri füzyonu Exercise 2: Kaynak mı kötü, hedef mi?Exercise 3: Gruplanmış veride özellik çıkarımı Exercise 4: Kusurlu etiketler Exercise 5: Bir sezgiyi sınıflayıcıya dönüştürmek Exercise 6: Sezgileri birleştirme Exercise 7: Etiket gürültüsüyle başa çıkma Exercise 8: Kayıp fonksiyonları Bölüm I Exercise 9: Performans metriklerine kısa bir hatırlatma Exercise 10: Gerçek dünya maliyet analizi Exercise 11: Karmaşıklık matrisi hesaplamaları Exercise 12: Kayıp fonksiyonları Bölüm II Exercise 13: Varsayılan eşikleme Exercise 14: Eşiği optimize etme Exercise 15: Hepsini bir araya getirmek

Önceki bölümde, iş akışına uzmanlardan gelen geri bildirimi dahil etmenin farklı yollarını kullandın ve bunu iş değeriyle uyumlu biçimde değerlendirdin. Şimdi, modelini ürünleştirmek ve onu yinelemeli olarak geliştirerek sonrasında da iyi performans göstermesini sağlamak için gereken becerileri uygulama zamanı. Ayrıca, veri kümesi kaymasını (dataset shift) teşhis etmeyi ve değişen bir ortamın model doğruluğun üzerinde yaratabileceği etkiyi azaltmayı öğreneceksin.

Exercise 1: İş akışlarından pipeline’lara Exercise 2: İlk pipeline’ının üzerinden tekrar!Exercise 3: Pipelinede özel değerlendiriciler Exercise 4: Model dağıtımı Exercise 5: Pickle'lar Exercise 6: Pipeline’larda özel fonksiyon dönüştürücüleri Exercise 7: Aşırı uyuma kaçmadan yineleme Exercise 8: Şampiyona meydan oku Exercise 9: Çapraz doğrulama istatistikleri Exercise 10: Veri kümesi kayması Exercise 11: Pencere boyutunu ayarlama Exercise 12: Hepsini bir araya getirmek

Önceki bölümlerde, üretime model alma bilgisi de dahil olmak üzere denetimli öğrenmede sağlam bir temel attın; ancak analiz için her zaman etiketli bir veri kümesinin mevcut olduğunu varsaydın. Bu bölümde, hiç ya da çok az etiketle veriyi modelleme meydan okumasını üstleneceksin. Bu yolculuk seni, bir tür denetimsiz modelleme olan anomali tespitine ve iki örnek arasındaki benzerliğin ne olduğuna dair inançların etiketlerin yerine kullanılabildiği, denetimli bir iş akışına yakın doğruluk seviyelerine ulaşmana yardım eden mesafe tabanlı öğrenmeye götürecek. Bu bölümü tamamladığında, gerçek dünyadaki yaygın zorlukları aşmak için iş akışını nasıl değiştireceğini kendinden emin bir şekilde bilerek veri bilimcileri arasında net biçimde öne çıkacaksın.

Exercise 1: Anomali tespiti Exercise 2: Basit bir aykırı değer Exercise 3: LoF kirliliği Exercise 4: Yenilik tespiti Exercise 5: Basit bir novelty örneği Exercise 6: Üç yenilik (novelty) algılayıcı Exercise 7: Bulaşma oranına yeniden bakış Exercise 8: Mesafeye dayalı öğrenme Exercise 9: Komşuyu bul Exercise 10: Tüm metrikler aynı fikirde değil Exercise 11: Yapılandırılmamış veri Exercise 12: Kısıtlı Levenshtein Exercise 13: Hepsini bir araya getirme Exercise 14: Kapanış notları