Combinare euristiche

Un altro analista di cybersecurity ti dice che, durante alcuni tipi di attacco, il computer sorgente infetto invia piccole quantità di traffico per evitare di essere rilevato. Questo ti fa pensare che potrebbe essere meglio creare un'euristica combinata che cerchi contemporaneamente un alto numero di porte e dimensioni dei pacchetti ridotte. Migliora le prestazioni rispetto alla semplice euristica sulle porte? Come nel precedente esercizio, hai in memoria X_train, X_test, y_train e y_test. Il codice d'esempio ti aiuta anche a riprodurre il risultato dell'euristica sulle porte, pred_port. Hai anche numpy come np e accuracy_score() già caricati.

Questo esercizio fa parte del corso

Progettare workflow di Machine Learning in Python

Visualizza corso

Istruzioni dell'esercizio

La colonna average_packet calcola la dimensione media dei pacchetti su tutti i flussi osservati da una singola sorgente. Calcola la media di quei valori solo per le sorgenti malevole nel training set.
Ora costruisci una nuova regola che contrassegni come positivi tutte le sorgenti la cui media del traffico è inferiore al valore sopra.
Combina le regole in modo che entrambe le euristiche si applichino contemporaneamente, usando un'appropriata operazione aritmetica.
Riporta l'accuratezza dell'euristica combinata.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Compute the mean of average_packet for bad sources
avg_bad_packet = np.mean(____[____]['average_packet'])

# Label as positive if average_packet is lower than that
pred_packet = ____[____] < avg_bad_packet

# Find indices where pred_port and pred_packet both True
pred_port = X_test['unique_ports'] > avg_bad_ports
pred_both = pred_packet ____ pred_port

# Ports only produced an accuracy of 0.919. Is this better?
print(accuracy_score(____, ____))

Modifica ed esegui il codice

Progettare workflow di Machine Learning in Python

AvançadoNível de habilidade

4.8+

94 reviews

Nei capitoli precedenti hai costruito solide basi nel supervised learning, inclusa la messa in produzione dei modelli, ma hai sempre dato per scontato di avere a disposizione un insieme di dati etichettato per l’analisi. In questo capitolo affronterai la sfida di modellare dati senza etichette o con pochissime etichette. Questo ti porta in un percorso nell’anomaly detection, una forma di modellazione non supervisionata, e nel distance-based learning, dove convinzioni su cosa renda simili due esempi possono sostituire le etichette per aiutarti a raggiungere livelli di accuratezza paragonabili a un workflow supervisionato. Al termine del capitolo, ti distinguerai chiaramente dalla massa dei data scientist grazie alla sicurezza con cui saprai scegliere gli strumenti giusti per adattare il tuo workflow e superare sfide comuni del mondo reale.

Exercise 1: Rilevamento di anomalie Exercise 2: Un semplice outlier Exercise 3: Contaminazione in LoF Exercise 4: Rilevamento di novità Exercise 5: Una semplice novelty Exercise 6: Tre rilevatori di novità Exercise 7: Contamination, di nuovo Exercise 8: Apprendimento basato sulla distanza Exercise 9: Trova il vicino Exercise 10: Non tutte le metriche sono d'accordo Exercise 11: Dati non strutturati Exercise 12: Levenshtein ristretto Exercise 13: Mettere tutto insieme Exercise 14: Considerazioni finali