Diseñar una tubería DVC
Diseñar un pipeline DVC, o DAG, es fundamental para aprovechar DVC en tus flujos de trabajo de aprendizaje automático. DAGs nos permiten codificar las entradas, salidas y ejecución de un determinado paso. Las salidas de un paso pueden servir de entrada a uno o más pasos, estableciendo así de forma natural las dependencias adecuadas entre los pasos.
En este ejercicio, trabajarás en el diseño de un flujo de trabajo ML que contenga cuatro etapas, a saber,
- Preprocesamiento de datos (
preprocess_stage
) - División de datos (
split_stage
) - Entrenamiento de modelos (
train_stage
) - Evaluación del modelo (
evaluate_stage
)
Trabajaremos exclusivamente con los comandos dvc stage add
. Desplázate hasta el final del archivo del script de shell (dvc_dag_stages_add.sh
) si es necesario.
Este ejercicio forma parte del curso
Introducción al control de versiones de datos con DVC
Instrucciones del ejercicio
- Añade
processed_data.csv
como salida depreprocess_stage
. - Añade parámetros de la sección
split
del archivo de parámetros por defecto asplit_stage
. - Añade
model.pkl
como una de las dependencias en la páginaevaluate_stage
. - Ejecuta el archivo bash ejecutando el comando
bash dvc_dag_stages_add.sh
en el terminal. Observa cómo se rellenadvc.yaml
.
Ejercicio interactivo práctico
Pon en práctica la teoría con uno de nuestros ejercicios interactivos
