Trasformare un'euristica in un classificatore

Ti sorprende quanto possano essere utili le euristiche. Decidi quindi di trattare l'euristica "troppe porte uniche sono sospette" come un classificatore a sé stante. Lo fai applicando una soglia al numero di porte uniche per sorgente, pari alla media del numero usato dai computer sorgente malevoli — quelli per cui l'etichetta è True. Il dataset è già caricato e suddiviso in training e test, quindi hai in memoria gli oggetti X_train, X_test, y_train e y_test. Gli import includono accuracy_score() e numpy come np. Per chiarezza: in questo esercizio non adatterai un classificatore di scikit-learn, ma definirai esplicitamente la tua regola di classificazione!

Questo esercizio fa parte del corso

Progettare workflow di Machine Learning in Python

Visualizza corso

Istruzioni dell'esercizio

Sotto-seleziona tutti gli host malevoli da X_train per formare un nuovo insieme di dati X_train_bad. Nota che y_train è un array booleano.
Calcola la media della colonna unique_ports per gli host malevoli e salvala in avg_bad_ports.
Considera ora un classificatore che predice positivo ogni esempio il cui unique_ports supera avg_bad_ports. Salva le previsioni di questo classificatore sui dati di test in una nuova variabile, pred_port.
Calcola l'accuratezza di questo classificatore sui dati di test usando accuracy_score().

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create a new dataset X_train_bad by subselecting bad hosts
X_train_bad = ____[____]

# Calculate the average of unique_ports in bad examples
avg_bad_ports = np.____(____['unique_ports'])

# Label as positive sources that use more ports than that
pred_port = ____['unique_ports'] > ____

# Print the accuracy of the heuristic
print(____(y_test, ____))

Modifica ed esegui il codice

Progettare workflow di Machine Learning in Python

AvançadoNível de habilidade

4.8+

94 reviews

Nei capitoli precedenti hai costruito solide basi nel supervised learning, inclusa la messa in produzione dei modelli, ma hai sempre dato per scontato di avere a disposizione un insieme di dati etichettato per l’analisi. In questo capitolo affronterai la sfida di modellare dati senza etichette o con pochissime etichette. Questo ti porta in un percorso nell’anomaly detection, una forma di modellazione non supervisionata, e nel distance-based learning, dove convinzioni su cosa renda simili due esempi possono sostituire le etichette per aiutarti a raggiungere livelli di accuratezza paragonabili a un workflow supervisionato. Al termine del capitolo, ti distinguerai chiaramente dalla massa dei data scientist grazie alla sicurezza con cui saprai scegliere gli strumenti giusti per adattare il tuo workflow e superare sfide comuni del mondo reale.

Exercise 1: Rilevamento di anomalie Exercise 2: Un semplice outlier Exercise 3: Contaminazione in LoF Exercise 4: Rilevamento di novità Exercise 5: Una semplice novelty Exercise 6: Tre rilevatori di novità Exercise 7: Contamination, di nuovo Exercise 8: Apprendimento basato sulla distanza Exercise 9: Trova il vicino Exercise 10: Non tutte le metriche sono d'accordo Exercise 11: Dati non strutturati Exercise 12: Levenshtein ristretto Exercise 13: Mettere tutto insieme Exercise 14: Considerazioni finali