Verificação de dados com controle de versão
Neste exercício do editor, você praticará a movimentação entre versões de seus conjuntos de dados verificando as versões de metadados correspondentes no repositório Git. Este exercício se baseia no anterior, rastreando o estado inicial do conjunto de dados meteorológicos, seguido da remoção de 1.000 linhas e do envio para o site DVC remote. Sua tarefa será reverter o commit do Git para um estado anterior, verificar o conjunto de dados DVC nesse estado correspondente e observar as alterações.
Já inicializamos o site DVC, configuramos um remoto local em /tmp/dvc
e adicionamos um commit de configuração. Em seguida, adicionamos mais dois commits que marcam o rastreamento e as alterações do conjunto de dados.
NOTE: Para reverter as alterações que fizemos no repositório git por meio de N
commits, você pode usar
git reset --hard HEAD~N
Este exercício faz parte do curso
Introdução ao controle de versão de dados com DVC
Instruções de exercício
- Inspecione o histórico de commits do Git usando o comando
git log
. Observe as duas principais mensagens de confirmação que refletem as atualizações do conjunto de dados. Pressioneq
para sair do modo interativo. - Inspecione o valor
md5
no arquivodataset.csv.dvc
e compare-o com o arquivo executandomd5sum dataset.csv
. - Reverta as alterações feitas no arquivo de metadados do conjunto de dados em um commit. O valor
md5
teria mudado, mas será inconsistente com omd5sum dataset.csv
. - Atualize o conjunto de dados verificando a versão consistente com o arquivo de metadados. O valor
md5
nos metadados agora deve ser consistente commd5sum dataset.csv
.
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
