Este ejercicio forma parte del curso
Este capítulo proporciona una introducción completa al Control de Versiones de Datos (DVC), una herramienta esencial para el versionado de datos en el aprendizaje automático. Los alumnos explorarán la motivación que hay detrás del versionado de datos, comprenderán sus diferencias con el versionado de código y experimentarán con un sencillo problema de clasificación. Repasarán los comandos básicos de Git, aprenderán sobre DVC, y practicarán la creación de un repositorio. El capítulo concluye con una visión general de las funciones y casos de uso de DVC, incluidos el versionado de datos y modelos, CI/CD para el aprendizaje automático, el seguimiento de experimentos, los pipelines y mucho más.
Este capítulo profundiza en la configuración de DVC, abarcando aspectos como la instalación, la inicialización del repositorio y la utilización del archivo .dvcignore. Además, navega por la exploración de la caché DVC y los archivos de preparación, impartiendo conocimientos sobre cómo añadir y eliminar archivos, gestionar cachés y comprender los mecanismos subyacentes utilizando el hash MD5. El capítulo también aclara sobre las remotas de DVC, distinguiéndolas de las remotas de Git, y te guía sobre cómo añadirlas, listarlas y modificarlas. Por último, te enseña a interactuar con estas remotas enviando y recibiendo datos, comprobando versiones concretas y trayendo datos a la caché.
Ejercicio actual
Este capítulo se centra en la automatización de ML pipelines utilizando DVC. Los alumnos crean un archivo de configuración que contiene ajustes e hiperparámetros. También aprenden sobre la visualización de tuberías mediante grafos acíclicos dirigidos y utilizan comandos para describir dependencias, órdenes y salidas. Se cubre la ejecución de los pipelines de DVC, incluido el entrenamiento de modelos locales y cómo Git rastrea los metadatos de DVC. Además, los alumnos exploran el seguimiento de métricas y trazados en DVC, incluyendo cómo imprimir métricas, crear archivos de trazado y comparar métricas y trazados en diferentes etapas del pipeline.