Encontrar duplicados

Una nueva actualización de la canalización de datos que alimenta ride_sharing ha añadido la columna ride_id, que representa un identificador único para cada viaje.

Sin embargo, la actualización coincidió con tiempos medios de duración de los trayectos radicalmente más cortos y fechas de nacimiento de usuarios irregulares fijadas en el futuro. Y lo que es más importante, el número de viajes realizados ha aumentado un 20 % de la noche a la mañana, lo que te lleva a pensar que puede haber duplicados completos e incompletos en el DataFrame ride_sharing.

En este ejercicio, confirmarás esta sospecha encontrando esos duplicados. En tu entorno hay una muestra de ride_sharing, así como de todos los paquetes con los que has estado trabajando hasta ahora.

Este ejercicio forma parte del curso

Limpieza de datos en Python

Instrucciones del ejercicio

Busca filas duplicadas de ride_id en el DataFrame de ride_sharing mientras estableces keep en False.
Subconjunta ride_sharing en duplicates y ordena por ride_id y asigna los resultados a duplicated_rides.
Imprime las columnas ride_id, duration y user_birth_year de duplicated_rides en ese orden.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Find duplicates
duplicates = ____.____(____, ____)

# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')

# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])

Editar y ejecutar código

Este ejercicio forma parte del curso

Limpieza de datos en Python

IntermedioNivel de habilidad

4.8+

Comienza el curso gratis

En este capítulo, aprenderás a superar algunos de los problemas más comunes con los datos sucios. Convertirás los tipos de datos, aplicarás restricciones de rango para eliminar puntos de datos futuros y eliminarás puntos de datos duplicados para evitar que cuente doble en el recuento.

Exercise 1: Restricciones del tipo de datos Exercise 2: Tipos de datos comunes Exercise 3: ¿Datos numéricos o ... ?Exercise 4: Sumar cadenas y concatenar números Exercise 5: Restricciones del rango de datos Exercise 6: Limitaciones del tamaño de los neumáticos Exercise 7: Regreso al futuro Exercise 8: Restricciones de unicidad Exercise 9: ¿Qué tamaño tiene tu subconjunto?Exercise 10: Encontrar duplicados

Ejercicio actual

Exercise 11: Tratamiento de duplicados

Los datos categóricos y de texto pueden ser a menudo algunas de las partes más desordenadas de un conjunto de datos, debido a su naturaleza no estructurada. En este capítulo, aprenderás a corregir incoherencias de espacios en blanco y mayúsculas en las etiquetas de las categorías, a contraer varias categorías en una sola y a reformatear cadenas para que sean coherentes.

Exercise 1: Limitaciones de afiliación Exercise 2: Solo para miembros Exercise 3: Encontrar la coherencia Exercise 4: Variables categóricas Exercise 5: Categorías de errores Exercise 6: Categorías incoherentes Exercise 7: Reasignación de categorías Exercise 8: Limpiar datos de texto Exercise 9: Quitar títulos y tomar nombres Exercise 10: Mantenlo descriptivo

En este capítulo, te sumergirás en problemas más avanzados de limpieza de datos, como asegurarte de que todos los pesos están escritos en kilogramos en lugar de libras. También adquirirás conocimientos muy valiosos que te ayudarán a verificar que los valores se han añadido correctamente y que los valores que faltan no afectan negativamente a tus análisis.

Exercise 1: Uniformidad Exercise 2: Fechas ambiguas Exercise 3: Monedas uniformes Exercise 4: Fechas de los uniformes Exercise 5: Validación entre campos Exercise 6: ¿Campo cruzado o no campo cruzado?Exercise 7: ¿Cómo está la integridad de nuestros datos?Exercise 8: Integridad Exercise 9: ¿Falta al azar?Exercise 10: Inversores omitidos Exercise 11: Sigue el dinero

La vinculación de registros es una potente técnica para fusionar varios conjuntos de datos, que se utiliza cuando los valores tienen erratas o diferente ortografía. En este capítulo, aprenderás a enlazar registros calculando la similitud entre cadenas; luego, utilizarás tus nuevas habilidades para unir dos conjuntos de datos de reseñas de restaurantes en un conjunto de datos maestro limpio.

Exercise 1: Comparar cadenas Exercise 2: Distancia mínima de edición Exercise 3: El punto de corte Exercise 4: Reasignación de categorías II Exercise 5: Generar pares Exercise 6: ¿Enlazar o no enlazar?Exercise 7: Pares de restaurantes Exercise 8: Restaurantes similares Exercise 9: Enlazar DataFrames Exercise 10: Obtener el índice correcto Exercise 11: ¡Enlazándolos!Exercise 12: ¡Enhorabuena!