Diseñar una tubería DVC
Diseñar un pipeline DVC, o DAG, es fundamental para aprovechar DVC en tus flujos de trabajo de aprendizaje automático. DAGs nos permiten codificar las entradas, salidas y ejecución de un determinado paso. Las salidas de un paso pueden servir de entrada a uno o más pasos, estableciendo así de forma natural las dependencias adecuadas entre los pasos.
En este ejercicio, trabajarás en el diseño de un flujo de trabajo ML que contenga cuatro etapas, a saber,
- Preprocesamiento de datos (
preprocess_stage) - División de datos (
split_stage) - Entrenamiento de modelos (
train_stage) - Evaluación del modelo (
evaluate_stage)
Trabajaremos exclusivamente con los comandos dvc stage add. Desplázate hasta el final del archivo del script de shell (dvc_dag_stages_add.sh) si es necesario.
Este ejercicio forma parte del curso
Introducción al control de versiones de datos con DVC
Instrucciones del ejercicio
- Añade
processed_data.csvcomo salida depreprocess_stage. - Añade parámetros de la sección
splitdel archivo de parámetros por defecto asplit_stage. - Añade
model.pklcomo una de las dependencias en la páginaevaluate_stage. - Ejecuta el archivo bash ejecutando el comando
bash dvc_dag_stages_add.shen el terminal. Observa cómo se rellenadvc.yaml.
Ejercicio interactivo práctico
Pon en práctica la teoría con uno de nuestros ejercicios interactivos
Empezar ejercicio