Projetando um pipeline DVC
Projetar um pipeline DVC, ou DAG, é fundamental para você aproveitar o DVC em seus fluxos de trabalho de machine learning. DAGs nos permite codificar entradas, saídas e execução de uma determinada etapa. Os resultados de uma etapa podem servir como entrada para uma ou mais etapas, definindo assim naturalmente as dependências corretas entre as etapas.
Neste exercício, você trabalhará no projeto de um fluxo de trabalho do ML que contém quatro estágios, a saber
- Pré-processamento de dados (
preprocess_stage
) - Divisão de dados (
split_stage
) - Treinamento de modelos (
train_stage
) - Avaliação do modelo (
evaluate_stage
)
Trabalharemos exclusivamente com os comandos dvc stage add
. Role para baixo até o final do arquivo de script de shell (dvc_dag_stages_add.sh
), se necessário.
Este exercício faz parte do curso
Introdução ao controle de versão de dados com DVC
Instruções de exercício
- Adicione
processed_data.csv
como saída depreprocess_stage
. - Adicione parâmetros da seção
split
do arquivo de parâmetros padrão aosplit_stage
. - Adicione
model.pkl
como uma das dependências emevaluate_stage
. - Execute o arquivo bash executando o comando
bash dvc_dag_stages_add.sh
no terminal. Observe como o sitedvc.yaml
é preenchido.
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
