ComeçarComece gratuitamente

Projetando um pipeline DVC

Projetar um pipeline DVC, ou DAG, é fundamental para você aproveitar o DVC em seus fluxos de trabalho de machine learning. DAGs nos permite codificar entradas, saídas e execução de uma determinada etapa. Os resultados de uma etapa podem servir como entrada para uma ou mais etapas, definindo assim naturalmente as dependências corretas entre as etapas.

Neste exercício, você trabalhará no projeto de um fluxo de trabalho do ML que contém quatro estágios, a saber

  • Pré-processamento de dados (preprocess_stage)
  • Divisão de dados (split_stage)
  • Treinamento de modelos (train_stage)
  • Avaliação do modelo (evaluate_stage)

Trabalharemos exclusivamente com os comandos dvc stage add. Role para baixo até o final do arquivo de script de shell (dvc_dag_stages_add.sh), se necessário.

Este exercício faz parte do curso

Introdução ao controle de versão de dados com DVC

Ver Curso

Instruções de exercício

  • Adicione processed_data.csv como saída de preprocess_stage.
  • Adicione parâmetros da seção split do arquivo de parâmetros padrão ao split_stage.
  • Adicione model.pkl como uma das dependências em evaluate_stage.
  • Execute o arquivo bash executando o comando bash dvc_dag_stages_add.sh no terminal. Observe como o site dvc.yaml é preenchido.

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Comece o exercício