Pickle

Finalmente è il momento di portare in produzione il tuo primo modello. Si tratta di un classificatore random forest che userai come baseline, mentre lavori per sviluppare un'alternativa migliore. Hai a disposizione il classico split in training e test con i nomi X_train, X_test, y_train e y_test, oltre ai moduli RandomForestClassifier() e pickle, di cui ti serviranno i metodi .load() e .dump() per questo esercizio.

Questo esercizio fa parte del corso

Progettare workflow di Machine Learning in Python

Visualizza corso

Istruzioni dell'esercizio

Allena un classificatore random forest sui dati. Fissa il seme casuale a 42 per garantire la riproducibilità dei risultati.
Scrivi il modello su file usando pickle. Apri il file di destinazione usando la sintassi with open(____) as ____.
Ora carica il modello dal file in una variabile con un nome diverso, clf_from_file.
Salva le predizioni del modello caricato in una variabile preds.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Fit a random forest to the training set
clf = ____(____=42).____(
  X_train, y_train)

# Save it to a file, to be pushed to production
with ____('model.pkl', ____) as ____:
    pickle.____(clf, file=file)

# Now load the model from file in the production environment
with ____ as file:
    clf_from_file = pickle.____(file)

# Predict the labels of the test dataset
preds = clf_from_file.____

Modifica ed esegui il codice

Progettare workflow di Machine Learning in Python

AvançadoNível de habilidade

4.8+

94 reviews

Nei capitoli precedenti hai costruito solide basi nel supervised learning, inclusa la messa in produzione dei modelli, ma hai sempre dato per scontato di avere a disposizione un insieme di dati etichettato per l’analisi. In questo capitolo affronterai la sfida di modellare dati senza etichette o con pochissime etichette. Questo ti porta in un percorso nell’anomaly detection, una forma di modellazione non supervisionata, e nel distance-based learning, dove convinzioni su cosa renda simili due esempi possono sostituire le etichette per aiutarti a raggiungere livelli di accuratezza paragonabili a un workflow supervisionato. Al termine del capitolo, ti distinguerai chiaramente dalla massa dei data scientist grazie alla sicurezza con cui saprai scegliere gli strumenti giusti per adattare il tuo workflow e superare sfide comuni del mondo reale.

Exercise 1: Rilevamento di anomalie Exercise 2: Un semplice outlier Exercise 3: Contaminazione in LoF Exercise 4: Rilevamento di novità Exercise 5: Una semplice novelty Exercise 6: Tre rilevatori di novità Exercise 7: Contamination, di nuovo Exercise 8: Apprendimento basato sulla distanza Exercise 9: Trova il vicino Exercise 10: Non tutte le metriche sono d'accordo Exercise 11: Dati non strutturati Exercise 12: Levenshtein ristretto Exercise 13: Mettere tutto insieme Exercise 14: Considerazioni finali