Pickles

Por fin ha llegado el momento de llevar tu primer modelo a producción. Es un clasificador de random forest que usarás como línea base mientras sigues trabajando para desarrollar una alternativa mejor. Tienes acceso a la división de datos en entrenamiento y prueba con sus nombres habituales, X_train, X_test, y_train y y_test, así como a los módulos RandomForestClassifier() y pickle, cuyos métodos .load() y .dump() necesitarás en este ejercicio.

Este ejercicio forma parte del curso

Diseño de flujos de trabajo de Machine Learning en Python

Ver curso

Instrucciones del ejercicio

Ajusta un clasificador de random forest a los datos. Fija la semilla aleatoria a 42 para asegurar que los resultados sean reproducibles.
Escribe el modelo a un archivo usando pickle. Abre el archivo de destino con la sintaxis with open(____) as ____.
Ahora carga el modelo desde el archivo en una variable con un nombre distinto, clf_from_file.
Guarda las predicciones del modelo que cargaste en la variable preds.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Fit a random forest to the training set
clf = ____(____=42).____(
  X_train, y_train)

# Save it to a file, to be pushed to production
with ____('model.pkl', ____) as ____:
    pickle.____(clf, file=file)

# Now load the model from file in the production environment
with ____ as file:
    clf_from_file = pickle.____(file)

# Predict the labels of the test dataset
preds = clf_from_file.____

Editar y ejecutar código

Diseño de flujos de trabajo de Machine Learning en Python

AvanzadoNivel de habilidad

4.8+

94 reviews

En los capítulos anteriores asentaste una base sólida en aprendizaje supervisado, con conocimientos sobre poner modelos en producción, pero siempre asumiste que habría un conjunto de datos etiquetado disponible para tu análisis. En este capítulo, afrontas el reto de modelar datos sin etiquetas o con muy pocas. Esto te lleva a explorar la detección de anomalías, un tipo de modelado no supervisado, así como el aprendizaje basado en distancias, donde las creencias sobre qué constituye la similitud entre dos ejemplos pueden usarse en lugar de etiquetas para ayudarte a lograr niveles de precisión comparables a un flujo de trabajo supervisado. Al completar este capítulo, destacarás claramente entre las personas que hacen ciencia de datos al saber con confianza qué herramientas usar para adaptar tu flujo de trabajo y superar desafíos habituales del mundo real.

Exercise 1: Detección de anomalías Exercise 2: Un outlier sencillo Exercise 3: Contaminación en LoF Exercise 4: Detección de novedades Exercise 5: Una novedad sencilla Exercise 6: Tres detectores de novedad Exercise 7: Revisiting contamination Exercise 8: Aprendizaje basado en distancias Exercise 9: Encuentra el vecino Exercise 10: No todas las métricas coinciden Exercise 11: Datos no estructurados Exercise 12: Levenshtein restringida Exercise 13: Juntándolo todo Exercise 14: Comentarios finales