1. Learn
  2. /
  3. Cursuri
  4. /
  5. Proiectarea fluxurilor de lucru pentru Machine Learning în Python

Connected

exercițiu

Ingineria caracteristicilor pe date grupate

Vei extinde exercițiul anterior adăugând o caracteristică suplimentară: numărul de protocoale unice utilizate de fiecare calculator sursă. Reține că, atunci când lucrezi cu date grupate, poți construi caracteristici în acest mod: poți folosi numărul de elemente unice din toate coloanele categorice și media tuturor coloanelor numerice ca punct de plecare. Ca și înainte, ai disponibile flows preîncărcat, cross_val_score() pentru măsurarea acurateței, AdaBoostClassifier(), pandas ca pd și numpy ca np.

Instrucțiuni

100 XP
  • Aplică o funcție lambda pe iteratorul de grup furnizat, pentru a calcula numărul de protocoale unice utilizate de fiecare calculator sursă. Poți folosi set() pentru a reduce coloana protocol la o mulțime de valori unice.
  • Convertește rezultatul într-un dataframe cu forma corectă, furnizând un index și denumind coloana protocol.
  • Concatenează noul dataframe cu cel anterior, disponibil ca X.
  • Evaluează acuratețea AdaBoostClassifier() pe acest nou set de date folosind cross_val_score().