Hepsini bir araya getirmek

Aritmi tespiti girişimindeki pipeline hakkında iki endişen var:

Uygulama her yaştan hastalarla eğitildi, ancak ağırlıklı olarak genç olma eğilimindeki fitness kullanıcıları tarafından kullanılıyor. Bunun bir alan kayması (domain shift) olabileceğinden şüpheleniyorsun ve bu nedenle 50 yaş üzerindeki tüm örnekleri göz ardı etmek istiyorsun.
Hâlâ aşırı uyumdan (overfitting) endişe ediyorsun; bu yüzden rastgele orman sınıflandırıcıyı (random forest classifier) daha az karmaşık hale getirmenin ve bazı özellikleri seçmenin buna yardımcı olup olmayacağını görmek istiyorsun.

Bir özellik seçimi adımı SelectKBest() ve bir RandomForestClassifier içeren bir pipeline oluşturacaksın; ikisi de içe aktarılmış durumda. Ayrıca GridSearchCV(), Pipeline, numpy (np olarak) ve pickle erişimin var. Veri arrh olarak mevcut.

Bu egzersiz, kursun bir parçasıdır

Python'da Machine Learning İş Akışları Tasarlama

Kursa Göz Atın

Egzersiz talimatları

SelectKBest() adımı ft ve RandomForestClassifier() adımı clf olacak şekilde bir pipeline oluştur.
SelectKBest() içindeki k ve RandomForestClassifier() içindeki max_depth için ayarlanacak bir parametre ızgarası oluştur.
Yalnızca 50 yaş altını içeren veriler üzerinde, pipeline'ını bu ızgaraya karşı optimize etmek için GridSearchCV() kullan.
Üretimde kullanmak üzere en iyi hale getirilmiş pipeline'ı bir pickle dosyasına kaydet.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create a pipeline 
pipe = Pipeline([
  ('ft', ____), ('clf', ____(random_state=2))])

# Create a parameter grid
grid = {'ft__k':[5, 10], '____':[10, 20]}

# Execute grid search CV on a dataset containing under 50s
grid_search = ____(pipe, param_grid=grid)
arrh = arrh.____[____(arrh['age'] < 50)]
____.____(arrh.drop('class', 1), arrh['class'])

# Push the fitted pipeline to production
with ____('pipe.pkl', ____) as file:
    pickle.dump(____, file)

Kodu Düzenle ve Çalıştır

Python'da Machine Learning İş Akışları Tasarlama

AvançadoNível de habilidade

4.8+

94 reviews

Önceki bölümlerde, üretime model alma bilgisi de dahil olmak üzere denetimli öğrenmede sağlam bir temel attın; ancak analiz için her zaman etiketli bir veri kümesinin mevcut olduğunu varsaydın. Bu bölümde, hiç ya da çok az etiketle veriyi modelleme meydan okumasını üstleneceksin. Bu yolculuk seni, bir tür denetimsiz modelleme olan anomali tespitine ve iki örnek arasındaki benzerliğin ne olduğuna dair inançların etiketlerin yerine kullanılabildiği, denetimli bir iş akışına yakın doğruluk seviyelerine ulaşmana yardım eden mesafe tabanlı öğrenmeye götürecek. Bu bölümü tamamladığında, gerçek dünyadaki yaygın zorlukları aşmak için iş akışını nasıl değiştireceğini kendinden emin bir şekilde bilerek veri bilimcileri arasında net biçimde öne çıkacaksın.

Exercise 1: Anomali tespiti Exercise 2: Basit bir aykırı değer Exercise 3: LoF kirliliği Exercise 4: Yenilik tespiti Exercise 5: Basit bir novelty örneği Exercise 6: Üç yenilik (novelty) algılayıcı Exercise 7: Bulaşma oranına yeniden bakış Exercise 8: Mesafeye dayalı öğrenme Exercise 9: Komşuyu bul Exercise 10: Tüm metrikler aynı fikirde değil Exercise 11: Yapılandırılmamış veri Exercise 12: Kısıtlı Levenshtein Exercise 13: Hepsini bir araya getirme Exercise 14: Kapanış notları