ComenzarEmpieza gratis

Comprobación de datos versionados

En este ejercicio del editor, practicarás el desplazamiento entre versiones de tus conjuntos de datos consultando las correspondientes versiones de metadatos del repositorio Git. Este ejercicio se basa en el anterior mediante el seguimiento del estado inicial del conjunto de datos meteorológicos, seguido de la eliminación de 1000 líneas del mismo y su envío a DVC remote. Tu tarea consistirá en hacer retroceder el commit de Git a un estado anterior, comprobar el conjunto de datos DVC en ese estado correspondiente y observar los cambios.

Ya hemos inicializado DVC, configurado un remoto local en /tmp/dvc, y añadido un commit de configuración. A continuación, añadimos dos commits más que marcan el seguimiento y los cambios del conjunto de datos.

NOTE: Para revertir los cambios que hemos realizado en el repositorio git mediante N commits, puedes utilizar

git reset --hard HEAD~N

Este ejercicio forma parte del curso

Introducción al control de versiones de datos con DVC

Ver curso

Instrucciones de ejercicio

  • Inspecciona el historial de commits de Git utilizando el comando git log. Observa los dos mensajes de confirmación superiores que reflejan las actualizaciones del conjunto de datos. Pulsa q para salir del modo interactivo.
  • Inspecciona el valor md5 en el archivo dataset.csv.dvc y compáralo con el archivo ejecutando md5sum dataset.csv.
  • Anula los cambios realizados en el archivo de metadatos del conjunto de datos mediante una confirmación. El valor md5 habría cambiado, pero será incoherente con el md5sum dataset.csv.
  • Actualiza el conjunto de datos comprobando la versión coherente con el archivo de metadatos. El valor md5 de los metadatos debe ser ahora coherente con md5sum dataset.csv.

Ejercicio interactivo práctico

Convierte la teoría en acción con uno de nuestros ejercicios interactivos

Empieza a hacer ejercicio