Encontrar duplicados
Una nueva actualización de la canalización de datos que alimenta ride_sharing
ha añadido la columna ride_id
, que representa un identificador único para cada viaje.
Sin embargo, la actualización coincidió con tiempos medios de duración de los trayectos radicalmente más cortos y fechas de nacimiento de usuarios irregulares fijadas en el futuro. Y lo que es más importante, el número de viajes realizados ha aumentado un 20 % de la noche a la mañana, lo que te lleva a pensar que puede haber duplicados completos e incompletos en el DataFrame ride_sharing
.
En este ejercicio, confirmarás esta sospecha encontrando esos duplicados. En tu entorno hay una muestra de ride_sharing
, así como de todos los paquetes con los que has estado trabajando hasta ahora.
Este ejercicio forma parte del curso
Limpieza de datos en Python
Instrucciones de ejercicio
- Busca filas duplicadas de
ride_id
en el DataFrame deride_sharing
mientras estableceskeep
enFalse
. - Subconjunta
ride_sharing
enduplicates
y ordena porride_id
y asigna los resultados aduplicated_rides
. - Imprime las columnas
ride_id
,duration
yuser_birth_year
deduplicated_rides
en ese orden.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Find duplicates
duplicates = ____.____(____, ____)
# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')
# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])