1. Learn
  2. /
  3. Cursuri
  4. /
  5. Proiectarea fluxurilor de lucru pentru Machine Learning în Python

Connected

exercițiu

Totul laolaltă

Ai două îngrijorări legate de pipeline-ul tău la startup-ul de detectare a aritmiei:

  • Aplicația a fost antrenată pe pacienți de toate vârstele, însă este folosită în principal de utilizatori de fitness, care tind să fie tineri. Suspectezi că ar putea fi un caz de schimbare de domeniu (domain shift) și, prin urmare, vrei să ignori toate exemplele de la pacienți cu vârsta peste 50 de ani.
  • Ești în continuare îngrijorat de supraajustare (overfitting), așa că vrei să verifici dacă reducerea complexității clasificatorului de tip pădure aleatorie și selectarea unor caracteristici ar putea ajuta.

Vei crea un pipeline cu un pas de selecție a caracteristicilor SelectKBest() și un RandomForestClassifier, ambele deja importate. Ai acces și la GridSearchCV(), Pipeline, numpy ca np și pickle. Datele sunt disponibile ca arrh.

Instrucțiuni

100 XP
  • Creează un pipeline cu SelectKBest() ca pas ft și RandomForestClassifier() ca pas clf.
  • Creează o grilă de parametri pentru a ajusta k în SelectKBest() și max_depth în RandomForestClassifier().
  • Folosește GridSearchCV() pentru a optimiza pipeline-ul față de acea grilă și față de datele care conțin doar pacienți cu vârsta sub 50 de ani.
  • Salvează pipeline-ul optimizat într-un fișier pickle pentru utilizare în producție.