Comprobación de datos versionados
En este ejercicio del editor, practicarás el desplazamiento entre versiones de tus conjuntos de datos consultando las correspondientes versiones de metadatos del repositorio Git. Este ejercicio se basa en el anterior mediante el seguimiento del estado inicial del conjunto de datos meteorológicos, seguido de la eliminación de 1000 líneas del mismo y su envío a DVC remote. Tu tarea consistirá en hacer retroceder el commit de Git a un estado anterior, comprobar el conjunto de datos DVC en ese estado correspondiente y observar los cambios.
Ya hemos inicializado DVC, configurado un remoto local en /tmp/dvc
, y añadido un commit de configuración. A continuación, añadimos dos commits más que marcan el seguimiento y los cambios del conjunto de datos.
NOTE: Para revertir los cambios que hemos realizado en el repositorio git mediante N
commits, puedes utilizar
git reset --hard HEAD~N
Este ejercicio forma parte del curso
Introducción al control de versiones de datos con DVC
Instrucciones de ejercicio
- Inspecciona el historial de commits de Git utilizando el comando
git log
. Observa los dos mensajes de confirmación superiores que reflejan las actualizaciones del conjunto de datos. Pulsaq
para salir del modo interactivo. - Inspecciona el valor
md5
en el archivodataset.csv.dvc
y compáralo con el archivo ejecutandomd5sum dataset.csv
. - Anula los cambios realizados en el archivo de metadatos del conjunto de datos mediante una confirmación. El valor
md5
habría cambiado, pero será incoherente con elmd5sum dataset.csv
. - Actualiza el conjunto de datos comprobando la versión coherente con el archivo de metadatos. El valor
md5
de los metadatos debe ser ahora coherente conmd5sum dataset.csv
.
Ejercicio interactivo práctico
Convierte la teoría en acción con uno de nuestros ejercicios interactivos
