La tua prima pipeline - di nuovo!

Tornando alla startup che si occupa di aritmie, si avvicina la review mensile e, come parte di quella, un programmatore Python esperto controllerà il tuo codice. Decidi di fare pulizia seguendo le best practice e sostituire lo script per la selezione delle caratteristiche e la classificazione con random forest con una pipeline. Stai usando un insieme di dati di training disponibile come X_train e y_train, e diversi moduli: RandomForestClassifier, SelectKBest() e f_classif() per la selezione delle caratteristiche, oltre a GridSearchCV e Pipeline.

Questo esercizio fa parte del corso

Progettare workflow di Machine Learning in Python

Visualizza corso

Istruzioni dell'esercizio

Crea una pipeline con il selettore di caratteristiche fornito dal codice di esempio e un classificatore random forest. Dai alla prima fase il nome feature_selection.
Aggiungi due coppie chiave-valore in params: una per il numero di caratteristiche k nel selettore con valori 10 e 20, e una per n_estimators nella foresta con possibili valori 2 e 5.
Inizializza un oggetto GridSearchCV con la pipeline e la griglia di parametri fornite.
Adatta l'oggetto ai dati e stampa la combinazione di parametri con le prestazioni migliori.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create pipeline with feature selector and classifier
pipe = ___([
    (___, SelectKBest(f_classif)),
    ('clf', ___(random_state=2))])

# Create a parameter grid
params = {
   'feature_selection__k':___,
    ___:[2, 5]}

# Initialize the grid search object
grid_search = ___(___, ___=params)

# Fit it to the data and print the best value combination
print(grid_search.fit(___, ___).___)

Modifica ed esegui il codice

Progettare workflow di Machine Learning in Python

AvançadoNível de habilidade

4.8+

94 reviews

Nei capitoli precedenti hai costruito solide basi nel supervised learning, inclusa la messa in produzione dei modelli, ma hai sempre dato per scontato di avere a disposizione un insieme di dati etichettato per l’analisi. In questo capitolo affronterai la sfida di modellare dati senza etichette o con pochissime etichette. Questo ti porta in un percorso nell’anomaly detection, una forma di modellazione non supervisionata, e nel distance-based learning, dove convinzioni su cosa renda simili due esempi possono sostituire le etichette per aiutarti a raggiungere livelli di accuratezza paragonabili a un workflow supervisionato. Al termine del capitolo, ti distinguerai chiaramente dalla massa dei data scientist grazie alla sicurezza con cui saprai scegliere gli strumenti giusti per adattare il tuo workflow e superare sfide comuni del mondo reale.

Exercise 1: Rilevamento di anomalie Exercise 2: Un semplice outlier Exercise 3: Contaminazione in LoF Exercise 4: Rilevamento di novità Exercise 5: Una semplice novelty Exercise 6: Tre rilevatori di novità Exercise 7: Contamination, di nuovo Exercise 8: Apprendimento basato sulla distanza Exercise 9: Trova il vicino Exercise 10: Non tutte le metriche sono d'accordo Exercise 11: Dati non strutturati Exercise 12: Levenshtein ristretto Exercise 13: Mettere tutto insieme Exercise 14: Considerazioni finali