Mettiamo tutto insieme

Hai due preoccupazioni sulla tua pipeline nella startup per il rilevamento dell’aritmia:

L’app è stata addestrata su pazienti di tutte le età, ma viene usata soprattutto da utenti fitness che tendono a essere giovani. Sospetti un possibile domain shift e vuoi quindi ignorare tutti gli esempi sopra i 50 anni.
Sei ancora preoccupato per l’overfitting, quindi vuoi verificare se rendere il classificatore random forest meno complesso e selezionare alcune feature possa aiutare.

Creerai una pipeline con uno step di selezione delle feature SelectKBest() e un RandomForestClassifier, entrambi già importati. Hai anche accesso a GridSearchCV(), Pipeline, numpy come np e pickle. I dati sono disponibili come arrh.

Questo esercizio fa parte del corso

Progettare workflow di Machine Learning in Python

Visualizza corso

Istruzioni dell'esercizio

Crea una pipeline con SelectKBest() come step ft e RandomForestClassifier() come step clf.
Crea una griglia di parametri per ottimizzare k in SelectKBest() e max_depth in RandomForestClassifier().
Usa GridSearchCV() per ottimizzare la pipeline rispetto a quella griglia e ai dati contenenti solo persone sotto i 50 anni.
Salva la pipeline ottimizzata in un file pickle per la produzione.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create a pipeline 
pipe = Pipeline([
  ('ft', ____), ('clf', ____(random_state=2))])

# Create a parameter grid
grid = {'ft__k':[5, 10], '____':[10, 20]}

# Execute grid search CV on a dataset containing under 50s
grid_search = ____(pipe, param_grid=grid)
arrh = arrh.____[____(arrh['age'] < 50)]
____.____(arrh.drop('class', 1), arrh['class'])

# Push the fitted pipeline to production
with ____('pipe.pkl', ____) as file:
    pickle.dump(____, file)

Modifica ed esegui il codice

Progettare workflow di Machine Learning in Python

AvançadoNível de habilidade

4.8+

94 reviews

Nei capitoli precedenti hai costruito solide basi nel supervised learning, inclusa la messa in produzione dei modelli, ma hai sempre dato per scontato di avere a disposizione un insieme di dati etichettato per l’analisi. In questo capitolo affronterai la sfida di modellare dati senza etichette o con pochissime etichette. Questo ti porta in un percorso nell’anomaly detection, una forma di modellazione non supervisionata, e nel distance-based learning, dove convinzioni su cosa renda simili due esempi possono sostituire le etichette per aiutarti a raggiungere livelli di accuratezza paragonabili a un workflow supervisionato. Al termine del capitolo, ti distinguerai chiaramente dalla massa dei data scientist grazie alla sicurezza con cui saprai scegliere gli strumenti giusti per adattare il tuo workflow e superare sfide comuni del mondo reale.

Exercise 1: Rilevamento di anomalie Exercise 2: Un semplice outlier Exercise 3: Contaminazione in LoF Exercise 4: Rilevamento di novità Exercise 5: Una semplice novelty Exercise 6: Tre rilevatori di novità Exercise 7: Contamination, di nuovo Exercise 8: Apprendimento basato sulla distanza Exercise 9: Trova il vicino Exercise 10: Non tutte le metriche sono d'accordo Exercise 11: Dati non strutturati Exercise 12: Levenshtein ristretto Exercise 13: Mettere tutto insieme Exercise 14: Considerazioni finali