Encontrar duplicados
Una nueva actualización de la canalización de datos que alimenta ride_sharing ha añadido la columna ride_id, que representa un identificador único para cada viaje.
Sin embargo, la actualización coincidió con tiempos medios de duración de los trayectos radicalmente más cortos y fechas de nacimiento de usuarios irregulares fijadas en el futuro. Y lo que es más importante, el número de viajes realizados ha aumentado un 20 % de la noche a la mañana, lo que te lleva a pensar que puede haber duplicados completos e incompletos en el DataFrame ride_sharing.
En este ejercicio, confirmarás esta sospecha encontrando esos duplicados. En tu entorno hay una muestra de ride_sharing, así como de todos los paquetes con los que has estado trabajando hasta ahora.
Este ejercicio forma parte del curso
Limpieza de datos en Python
Instrucciones del ejercicio
- Busca filas duplicadas de
ride_iden el DataFrame deride_sharingmientras estableceskeepenFalse. - Subconjunta
ride_sharingenduplicatesy ordena porride_idy asigna los resultados aduplicated_rides. - Imprime las columnas
ride_id,durationyuser_birth_yeardeduplicated_ridesen ese orden.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Find duplicates
duplicates = ____.____(____, ____)
# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')
# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])