Anatomía de un modelo de Machine Learning

Ahora vas a afianzar cómo los datos influyen en el rendimiento del modelo. Trabajarás con el conjunto de datos de reservas de Airbnb (en el archivo booking.csv). Este conjunto de datos está pensado para tareas de clasificación que predicen si alguien cancelará una reserva. Contiene varias columnas numéricas y categóricas. Dividirás el conjunto de datos proporcionado en tres muestras mutuamente excluyentes: train_A.csv, train_B.csv y test.csv, usando el script split_dataset.py. Después, para cada conjunto de entrenamiento, ejecutarás la canalización de procesamiento de datos y entrenamiento del modelo para entrenar un clasificador de Random Forest y evaluar su rendimiento en el conjunto de prueba usando model_training.py. Los hiperparámetros definidos en params.json son los mismos en ambas ejecuciones.

Los scripts de Python están diseñados para aceptar argumentos por línea de comandos y ejecutarse desde la shell. Si quieres, explora estos scripts para profundizar en tu comprensión.

Este ejercicio forma parte del curso

Introducción al versionado de datos con DVC

ejercicio interactivo práctico

Convierte la teoría en práctica con uno de nuestros ejercicios interactivos

Empezar ejercicio

Este ejercicio forma parte del curso

Introducción al versionado de datos con DVC

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

Este capítulo ofrece una introducción completa a Data Version Control (DVC), una herramienta esencial para el versionado de datos en Machine Learning. Explorarás la motivación detrás del versionado de datos, entenderás en qué se diferencia del versionado de código y experimentarás con un problema simple de clasificación. Repasarás comandos básicos de Git, conocerás DVC y practicarás cómo configurar un repositorio. El capítulo concluye con un resumen de las funciones y casos de uso de DVC, incluyendo el versionado de datos y modelos, CI/CD para Machine Learning, seguimiento de experimentos, canalizaciones y más.

Exercise 1: Motivación para el versionado de datos Exercise 2: Anatomía de un modelo de Machine Learning

Ejercicio actual

Exercise 3: Diferencias entre el versionado de datos y de código Exercise 4: Comprender los hiperparámetros Exercise 5: Introducción a DVC Exercise 6: Trabajar con la CLI de Git Exercise 7: Revisión de la CLI de DVC Exercise 8: Funciones y casos de uso de DVC Exercise 9: Pipelines de DVC Exercise 10: CI/CD para Machine Learning

Este capítulo profundiza en la configuración de DVC, abarcando aspectos como la instalación, la inicialización del repositorio y el uso del archivo .dvcignore. También recorre la exploración de la caché de DVC y los archivos de preparación (staging), aportando conocimientos sobre cómo añadir y eliminar archivos, gestionar cachés y comprender los mecanismos subyacentes mediante el hash MD5. El capítulo también aclara qué son los remotos de DVC, en qué se diferencian de los remotos de Git y te guía para añadirlos, listarlos y modificarlos. Por último, aprenderás a interactuar con estos remotos realizando push y pull de datos, haciendo checkout de versiones específicas y obteniendo datos en la caché.

Exercise 1: Configuración e inicialización de DVC Exercise 2: Configuración de DVC Exercise 3: Patrones de .dvcignore Exercise 4: Caché de DVC y archivos en staging Exercise 5: Trabajar con la caché de DVC Exercise 6: Comprender los archivos .dvc Exercise 7: Configurar remotos de DVC Exercise 8: Propósito de los remotos de DVC Exercise 9: Configura un remoto de DVC Exercise 10: Interactuar con remotos de DVC Exercise 11: Versionado de datos usando DVC Remote Exercise 12: Hacer checkout de datos versionados

Este capítulo se centra en la automatización de canalizaciones de ML usando DVC. Crearás un archivo de configuración con ajustes e hiperparámetros. También aprenderás a visualizar canalizaciones con grafos acíclicos dirigidos y a usar comandos para describir dependencias, comandos y salidas. Se cubre la ejecución de canalizaciones de DVC, incluyendo el entrenamiento de modelos en local y cómo Git rastrea los metadatos de DVC. Además, explorarás el seguimiento de métricas y gráficas en DVC, incluyendo cómo imprimir métricas, crear archivos de gráficas y comparar métricas y gráficas en diferentes etapas de la canalización.

Exercise 1: Organización del código y refactorización Exercise 2: Comprender los archivos de parámetros en DVC Exercise 3: Escribe un archivo de parámetros Exercise 4: Escritura y visualización de pipelines de DVC Exercise 5: Diseñar un pipeline de DVC Exercise 6: Visualizar una canalización de DVC Exercise 7: Ejecución de pipelines de DVC Exercise 8: Conceptos de ejecución de pipelines en DVC Exercise 9: Ejecuta un pipeline de entrenamiento de un modelo de ML Exercise 10: Evaluación: métricas y gráficos en DVC Exercise 11: Seguimiento de métricas en DVC Exercise 12: Añadir gráficos a dvc.yaml Exercise 13: ¡Enhorabuena!