Aan de slagGa gratis aan de slag

Pickles

Eindelijk is het tijd om je eerste model naar productie te brengen. Het is een random forest-classifier die je als baseline gebruikt, terwijl je verder werkt aan een beter alternatief. Je hebt toegang tot de data, gesplitst in train en test met de gebruikelijke namen X_train, X_test, y_train en y_test, en tot de modules RandomForestClassifier() en pickle, waarvan je de methoden .load() en .dump() nodig hebt voor deze oefening.

Deze oefening maakt deel uit van de cursus

Machine Learning-workflows ontwerpen in Python

Cursus bekijken

Oefeninstructies

  • Train een random forest-classifier op de data. Zet de willekeurige seed op 42 om je resultaten reproduceerbaar te maken.
  • Schrijf het model met pickle weg naar een bestand. Open het doelbestand met de syntaxis with open(____) as ____.
  • Laad nu het model uit het bestand in een andere variabelenaam, clf_from_file.
  • Sla de voorspellingen van het geladen model op in een variabele preds.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Fit a random forest to the training set
clf = ____(____=42).____(
  X_train, y_train)

# Save it to a file, to be pushed to production
with ____('model.pkl', ____) as ____:
    pickle.____(clf, file=file)

# Now load the model from file in the production environment
with ____ as file:
    clf_from_file = pickle.____(file)

# Predict the labels of the test dataset
preds = clf_from_file.____
Code bewerken en uitvoeren