1. Nauka
  2. /
  3. Kursy
  4. /
  5. Projektowanie przepływów pracy uczenia maszynowego w Pythonie

Connected

ćwiczenie

Łącząc wszystko w całość

Masz dwie wątpliwości dotyczące swojego potoku w startupie zajmującym się wykrywaniem arytmii:

  • Aplikacja była trenowana na pacjentach w różnym wieku, ale korzystają z niej głównie użytkownicy fitness, którzy zazwyczaj są młodzi. Podejrzewasz, że może to być przypadek przesunięcia dziedzinowego (domain shift), dlatego chcesz pominąć wszystkie przykłady dotyczące osób powyżej 50. roku życia.
  • Nadal martwisz się o przeuczenie, więc chcesz sprawdzić, czy zmniejszenie złożoności klasyfikatora lasu losowego i selekcja cech mogą w tym pomóc.

Stworzysz potok z krokiem selekcji cech SelectKBest() oraz klasyfikatorem RandomForestClassifier() – oba zostały już zaimportowane. Masz również dostęp do GridSearchCV(), Pipeline, numpy jako np oraz pickle. Dane są dostępne jako arrh.

Instrukcje

100 XP
  • Utwórz potok z SelectKBest() jako krokiem ft oraz RandomForestClassifier() jako krokiem clf.
  • Utwórz siatkę parametrów do strojenia k w SelectKBest() oraz max_depth w RandomForestClassifier().
  • Użyj GridSearchCV(), aby zoptymalizować potok na podstawie tej siatki i danych zawierających tylko osoby poniżej 50. roku życia.
  • Zapisz zoptymalizowany potok do pliku pickle w celu wdrożenia na produkcję.