Pickles
Por fin ha llegado el momento de llevar tu primer modelo a producción. Es un clasificador de random forest que usarás como línea base mientras sigues trabajando para desarrollar una alternativa mejor. Tienes acceso a la división de datos en entrenamiento y prueba con sus nombres habituales, X_train, X_test, y_train y y_test, así como a los módulos RandomForestClassifier() y pickle, cuyos métodos .load() y .dump() necesitarás en este ejercicio.
Este ejercicio forma parte del curso
Diseño de flujos de trabajo de Machine Learning en Python
Instrucciones del ejercicio
- Ajusta un clasificador de random forest a los datos. Fija la semilla aleatoria a 42 para asegurar que los resultados sean reproducibles.
- Escribe el modelo a un archivo usando pickle. Abre el archivo de destino con la sintaxis
with open(____) as ____. - Ahora carga el modelo desde el archivo en una variable con un nombre distinto,
clf_from_file. - Guarda las predicciones del modelo que cargaste en la variable
preds.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Fit a random forest to the training set
clf = ____(____=42).____(
X_train, y_train)
# Save it to a file, to be pushed to production
with ____('model.pkl', ____) as ____:
pickle.____(clf, file=file)
# Now load the model from file in the production environment
with ____ as file:
clf_from_file = pickle.____(file)
# Predict the labels of the test dataset
preds = clf_from_file.____