Este ejercicio forma parte del curso
En este capítulo, aprenderás a superar algunos de los problemas más comunes con los datos sucios. Convertirás los tipos de datos, aplicarás restricciones de rango para eliminar puntos de datos futuros y eliminarás puntos de datos duplicados para evitar que cuente doble en el recuento.
Los datos categóricos y de texto pueden ser a menudo algunas de las partes más desordenadas de un conjunto de datos, debido a su naturaleza no estructurada. En este capítulo, aprenderás a corregir incoherencias de espacios en blanco y mayúsculas en las etiquetas de las categorías, a contraer varias categorías en una sola y a reformatear cadenas para que sean coherentes.
Ejercicio actual
En este capítulo, te sumergirás en problemas más avanzados de limpieza de datos, como asegurarte de que todos los pesos están escritos en kilogramos en lugar de libras. También adquirirás conocimientos muy valiosos que te ayudarán a verificar que los valores se han añadido correctamente y que los valores que faltan no afectan negativamente a tus análisis.
La vinculación de registros es una potente técnica para fusionar varios conjuntos de datos, que se utiliza cuando los valores tienen erratas o diferente ortografía. En este capítulo, aprenderás a enlazar registros calculando la similitud entre cadenas; luego, utilizarás tus nuevas habilidades para unir dos conjuntos de datos de reseñas de restaurantes en un conjunto de datos maestro limpio.