ComenzarEmpieza gratis

Diseñar una tubería DVC

Diseñar un pipeline DVC, o DAG, es fundamental para aprovechar DVC en tus flujos de trabajo de aprendizaje automático. DAGs nos permiten codificar las entradas, salidas y ejecución de un determinado paso. Las salidas de un paso pueden servir de entrada a uno o más pasos, estableciendo así de forma natural las dependencias adecuadas entre los pasos.

En este ejercicio, trabajarás en el diseño de un flujo de trabajo ML que contenga cuatro etapas, a saber,

  • Preprocesamiento de datos (preprocess_stage)
  • División de datos (split_stage)
  • Entrenamiento de modelos (train_stage)
  • Evaluación del modelo (evaluate_stage)

Trabajaremos exclusivamente con los comandos dvc stage add. Desplázate hasta el final del archivo del script de shell (dvc_dag_stages_add.sh) si es necesario.

Este ejercicio forma parte del curso

Introducción al control de versiones de datos con DVC

Ver curso

Instrucciones del ejercicio

  • Añade processed_data.csv como salida de preprocess_stage.
  • Añade parámetros de la sección split del archivo de parámetros por defecto a split_stage.
  • Añade model.pkl como una de las dependencias en la página evaluate_stage.
  • Ejecuta el archivo bash ejecutando el comando bash dvc_dag_stages_add.sh en el terminal. Observa cómo se rellena dvc.yaml.

Ejercicio interactivo práctico

Pon en práctica la teoría con uno de nuestros ejercicios interactivos

Empezar ejercicio