1. Learn
  2. /
  3. Cursuri
  4. /
  5. Proiectarea fluxurilor de lucru pentru Machine Learning în Python

Connected

exercițiu

Sursa sau destinația este problematică?

În lecția anterioară, ai folosit computerul destinație ca entitate de interes. Totuși, analistul tău de securitate cibernetică tocmai ți-a spus că mașinile infectate sunt cele care generează traficul suspect și vor apărea, prin urmare, ca sursă, nu ca destinație, în setul de date flows.

Datele flows au fost preîncărcate, împreună cu lista bad a ID-urilor infectate și extractorul de caracteristici featurizer() din lecția anterioară. Ai disponibile și numpy ca np, AdaBoostClassifier() și cross_val_score().

Instrucțiuni

100 XP
  • Creează un cadru de date în care fiecare rând este un vector de caracteristici pentru un source_computer. Grupează după ID-ul computerului sursă în setul de date flows și aplică extractorul de caracteristici fiecărui grup.
  • Convertește iteratorul într-un cadru de date apelând list() pe acesta.
  • Creează etichetele verificând dacă fiecare ID de source_computer se află în lista calculatoarelor infectate primite.
  • Evaluează un AdaBoostClassifier() pe aceste date folosind cross_val_score().