Feature engineering su dati raggruppati

Ora farai un passo avanti rispetto all’esercizio precedente, considerando una feature aggiuntiva: il numero di protocolli unici utilizzati da ciascun computer sorgente. Nota che con dati raggruppati è sempre possibile costruire feature in questo modo: puoi prendere il numero di elementi unici di tutte le colonne categoriche e la media di tutte le colonne numeriche come punto di partenza. Come prima, hai flows precaricato, cross_val_score() per misurare l’accuratezza, AdaBoostClassifier(), pandas come pd e numpy come np.

Questo esercizio fa parte del corso

Progettare workflow di Machine Learning in Python

Visualizza corso

Istruzioni dell'esercizio

Applica una funzione lambda sull’iteratore dei gruppi fornito per calcolare il numero di protocolli unici utilizzati da ciascun computer sorgente. Puoi usare set() per ridurre la colonna protocol a un insieme di valori unici.
Converti il risultato in un data frame con la forma corretta fornendo un indice e assegnando alla colonna il nome protocol.
Concatena il nuovo data frame con quello precedente, disponibile come X.
Valuta l’accuratezza di AdaBoostClassifier() su questo nuovo insieme di dati usando cross_val_score().

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create a feature counting unique protocols per source
protocols = flows.groupby('source_computer').apply(
  lambda df: ____)

# Convert this feature into a dataframe, naming the column
protocols_DF = pd.DataFrame(
  protocols, index=____, columns=____)

# Now concatenate this feature with the previous dataset, X
X_more = pd.concat([X, ____], axis=____)

# Refit the classifier and report its accuracy
print(____(____(
  AdaBoostClassifier(), ____, y)))

Modifica ed esegui il codice

Progettare workflow di Machine Learning in Python

AvançadoNível de habilidade

4.8+

94 reviews

Nei capitoli precedenti hai costruito solide basi nel supervised learning, inclusa la messa in produzione dei modelli, ma hai sempre dato per scontato di avere a disposizione un insieme di dati etichettato per l’analisi. In questo capitolo affronterai la sfida di modellare dati senza etichette o con pochissime etichette. Questo ti porta in un percorso nell’anomaly detection, una forma di modellazione non supervisionata, e nel distance-based learning, dove convinzioni su cosa renda simili due esempi possono sostituire le etichette per aiutarti a raggiungere livelli di accuratezza paragonabili a un workflow supervisionato. Al termine del capitolo, ti distinguerai chiaramente dalla massa dei data scientist grazie alla sicurezza con cui saprai scegliere gli strumenti giusti per adattare il tuo workflow e superare sfide comuni del mondo reale.

Exercise 1: Rilevamento di anomalie Exercise 2: Un semplice outlier Exercise 3: Contaminazione in LoF Exercise 4: Rilevamento di novità Exercise 5: Una semplice novelty Exercise 6: Tre rilevatori di novità Exercise 7: Contamination, di nuovo Exercise 8: Apprendimento basato sulla distanza Exercise 9: Trova il vicino Exercise 10: Non tutte le metriche sono d'accordo Exercise 11: Dati non strutturati Exercise 12: Levenshtein ristretto Exercise 13: Mettere tutto insieme Exercise 14: Considerazioni finali