Pickles
Eindelijk is het tijd om je eerste model naar productie te brengen. Het is een random forest-classifier die je als baseline gebruikt, terwijl je verder werkt aan een beter alternatief. Je hebt toegang tot de data, gesplitst in train en test met de gebruikelijke namen X_train, X_test, y_train en y_test, en tot de modules RandomForestClassifier() en pickle, waarvan je de methoden .load() en .dump() nodig hebt voor deze oefening.
Deze oefening maakt deel uit van de cursus
Machine Learning-workflows ontwerpen in Python
Oefeninstructies
- Train een random forest-classifier op de data. Zet de willekeurige seed op 42 om je resultaten reproduceerbaar te maken.
- Schrijf het model met pickle weg naar een bestand. Open het doelbestand met de syntaxis
with open(____) as ____. - Laad nu het model uit het bestand in een andere variabelenaam,
clf_from_file. - Sla de voorspellingen van het geladen model op in een variabele
preds.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Fit a random forest to the training set
clf = ____(____=42).____(
X_train, y_train)
# Save it to a file, to be pushed to production
with ____('model.pkl', ____) as ____:
pickle.____(clf, file=file)
# Now load the model from file in the production environment
with ____ as file:
clf_from_file = pickle.____(file)
# Predict the labels of the test dataset
preds = clf_from_file.____