ComenzarEmpieza gratis

Encontrar duplicados

Una nueva actualización de la canalización de datos que alimenta ride_sharing ha añadido la columna ride_id, que representa un identificador único para cada viaje.

Sin embargo, la actualización coincidió con tiempos medios de duración de los trayectos radicalmente más cortos y fechas de nacimiento de usuarios irregulares fijadas en el futuro. Y lo que es más importante, el número de viajes realizados ha aumentado un 20 % de la noche a la mañana, lo que te lleva a pensar que puede haber duplicados completos e incompletos en el DataFrame ride_sharing.

En este ejercicio, confirmarás esta sospecha encontrando esos duplicados. En tu entorno hay una muestra de ride_sharing, así como de todos los paquetes con los que has estado trabajando hasta ahora.

Este ejercicio forma parte del curso

Limpieza de datos en Python

Ver curso

Instrucciones de ejercicio

  • Busca filas duplicadas de ride_id en el DataFrame de ride_sharing mientras estableces keep en False.
  • Subconjunta ride_sharing en duplicates y ordena por ride_id y asigna los resultados a duplicated_rides.
  • Imprime las columnas ride_id, duration y user_birth_year de duplicated_rides en ese orden.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Find duplicates
duplicates = ____.____(____, ____)

# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')

# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])
Editar y ejecutar código