Este ejercicio forma parte del curso
En este capítulo, aprenderás a superar algunos de los problemas más comunes con los datos sucios. Convertirá tipos de datos, aplicará restricciones de rango para eliminar puntos de datos futuros y eliminará puntos de datos duplicados para evitar el doble recuento.
Los datos categóricos y de texto suelen ser algunas de las partes más desordenadas de un conjunto de datos debido a su naturaleza no estructurada. En este capítulo, aprenderá a corregir las incoherencias de los espacios en blanco y las mayúsculas en las etiquetas de las categorías, a contraer varias categorías en una sola y a reformatear las cadenas para mantener la coherencia.
Ejercicio actual
En este capítulo, se adentrará en problemas más avanzados de limpieza de datos, como asegurarse de que todos los pesos están escritos en kilogramos en lugar de libras. También adquirirá conocimientos muy valiosos que le ayudarán a verificar que los valores se han añadido correctamente y que los valores que faltan no afectan negativamente a sus análisis.
La vinculación de registros es una potente técnica para fusionar varios conjuntos de datos, que se utiliza cuando los valores tienen errores tipográficos o diferente ortografía. En este capítulo, aprenderá a vincular registros mediante el cálculo de la similitud entre cadenas y, a continuación, utilizará sus nuevos conocimientos para unir dos conjuntos de datos de reseñas de restaurantes en un conjunto de datos maestro limpio.