1. Learn
  2. /
  3. Cursuri
  4. /
  5. Proiectarea fluxurilor de lucru pentru Machine Learning în Python

Connected

exercițiu

Pune totul cap la cap

Tocmai ai intrat într-un startup de detectare a aritmiilor și vrei să antrenezi un model pe setul de date arrh. Ai observat că pădurile aleatoare câștigă destul de multe competiții Kaggle, așa că vrei să le testezi cu o adâncime maximă de 2, 5 sau 10, folosind căutarea pe grilă. De asemenea, observi că dimensionalitatea setului de date este destul de mare, prin urmare vrei să analizezi efectul unei metode de selecție a caracteristicilor.

Pentru a evita supraadaptarea, ți-ai împărțit deja datele în prealabil. Vei folosi X_train și y_train pentru căutarea pe grilă, și X_test și y_test pentru a decide dacă selecția caracteristicilor aduce beneficii. Toate cele patru seturi de date sunt preîncărcate în mediul tău. Ai acces și la GridSearchCV(), train_test_split(), SelectKBest(), chi2() și RandomForestClassifier sub numele rfc.

Instrucțiuni

100 XP
  • Folosește căutarea pe grilă pentru a experimenta cu o adâncime maximă de 2, 5 și 10 pentru RandomForestClassifier și stochează configurația cu cele mai bune rezultate.
  • Reantrenează acum estimatorul folosind numărul optim de estimatori dedus anterior.
  • Aplică selectorul de caracteristici SelectKBest cu funcția de scoring chi2 și reantrenează clasificatorul.