È la sorgente o la destinazione a essere compromessa?

Nella lezione precedente hai usato il computer di destinazione come entità di interesse. Tuttavia, la tua analista di cybersecurity ti ha appena detto che sono le macchine infette a generare il traffico malevolo e quindi compaiono come sorgente, non come destinazione, nel dataset flows.

I dati flows sono già stati caricati, così come la lista bad degli ID infetti e l'estrattore di feature featurizer() dalla lezione precedente. Hai anche numpy disponibile come np, AdaBoostClassifier() e cross_val_score().

Questo esercizio fa parte del corso

Progettare workflow di Machine Learning in Python

Visualizza corso

Istruzioni dell'esercizio

Crea un data frame in cui ogni riga è un vettore di feature per un source_computer. Fai il group by per ID del computer sorgente nel dataset flows e applica l'estrattore di feature a ciascun gruppo.
Converti l'iteratore in un data frame chiamando list() su di esso.
Crea le etichette verificando se ciascun ID di source_computer appartiene alla lista dei “cattivi” che ti è stata fornita.
Valuta un AdaBoostClassifier() su questi dati usando cross_val_score().

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Group by source computer, and apply the feature extractor
out = flows.____('source_computer').____(featurize)

# Convert the iterator to a dataframe by calling list on it
X = pd.DataFrame(____, index=____)

# Check which sources in X.index are bad to create labels
y = [x in bads for x in ____]

# Report the average accuracy of Adaboost over 3-fold CV
print(np.mean(____(____, X, y)))

Modifica ed esegui il codice

Progettare workflow di Machine Learning in Python

AvançadoNível de habilidade

4.8+

94 reviews

Nei capitoli precedenti hai costruito solide basi nel supervised learning, inclusa la messa in produzione dei modelli, ma hai sempre dato per scontato di avere a disposizione un insieme di dati etichettato per l’analisi. In questo capitolo affronterai la sfida di modellare dati senza etichette o con pochissime etichette. Questo ti porta in un percorso nell’anomaly detection, una forma di modellazione non supervisionata, e nel distance-based learning, dove convinzioni su cosa renda simili due esempi possono sostituire le etichette per aiutarti a raggiungere livelli di accuratezza paragonabili a un workflow supervisionato. Al termine del capitolo, ti distinguerai chiaramente dalla massa dei data scientist grazie alla sicurezza con cui saprai scegliere gli strumenti giusti per adattare il tuo workflow e superare sfide comuni del mondo reale.

Exercise 1: Rilevamento di anomalie Exercise 2: Un semplice outlier Exercise 3: Contaminazione in LoF Exercise 4: Rilevamento di novità Exercise 5: Una semplice novelty Exercise 6: Tre rilevatori di novità Exercise 7: Contamination, di nuovo Exercise 8: Apprendimento basato sulla distanza Exercise 9: Trova il vicino Exercise 10: Non tutte le metriche sono d'accordo Exercise 11: Dati non strutturati Exercise 12: Levenshtein ristretto Exercise 13: Mettere tutto insieme Exercise 14: Considerazioni finali