ComeçarComece gratuitamente

Verificação de dados com controle de versão

Neste exercício do editor, você praticará a movimentação entre versões de seus conjuntos de dados verificando as versões de metadados correspondentes no repositório Git. Este exercício se baseia no anterior, rastreando o estado inicial do conjunto de dados meteorológicos, seguido da remoção de 1.000 linhas e do envio para o site DVC remote. Sua tarefa será reverter o commit do Git para um estado anterior, verificar o conjunto de dados DVC nesse estado correspondente e observar as alterações.

Já inicializamos o site DVC, configuramos um remoto local em /tmp/dvc e adicionamos um commit de configuração. Em seguida, adicionamos mais dois commits que marcam o rastreamento e as alterações do conjunto de dados.

NOTE: Para reverter as alterações que fizemos no repositório git por meio de N commits, você pode usar

git reset --hard HEAD~N

Este exercício faz parte do curso

Introdução ao controle de versão de dados com DVC

Ver Curso

Instruções de exercício

  • Inspecione o histórico de commits do Git usando o comando git log. Observe as duas principais mensagens de confirmação que refletem as atualizações do conjunto de dados. Pressione q para sair do modo interativo.
  • Inspecione o valor md5 no arquivo dataset.csv.dvc e compare-o com o arquivo executando md5sum dataset.csv.
  • Reverta as alterações feitas no arquivo de metadados do conjunto de dados em um commit. O valor md5 teria mudado, mas será inconsistente com o md5sum dataset.csv.
  • Atualize o conjunto de dados verificando a versão consistente com o arquivo de metadados. O valor md5 nos metadados agora deve ser consistente com md5sum dataset.csv.

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Comece o exercício