ComeçarComece gratuitamente

Localização de duplicatas

Uma nova atualização do pipeline de dados que alimenta ride_sharing adicionou a coluna ride_id, que representa um identificador exclusivo para cada viagem.

No entanto, a atualização coincidiu com tempos de duração média de viagem radicalmente mais curtos e datas de nascimento de usuários irregulares definidas no futuro. O mais importante é que o número de viagens realizadas aumentou 20% da noite para o dia, o que leva você a pensar que pode haver duplicatas completas e incompletas no DataFrame ride_sharing.

Neste exercício, você confirmará essa suspeita encontrando essas duplicatas. Uma amostra do ride_sharing está em seu ambiente, bem como todos os pacotes com os quais você trabalhou até agora.

Este exercício faz parte do curso

Limpeza de dados em Python

Ver Curso

Instruções de exercício

  • Encontre linhas duplicadas de ride_id no DataFrame ride_sharing enquanto você define keep como False.
  • Faça um subconjunto de ride_sharing em duplicates, classifique por ride_id e atribua os resultados a duplicated_rides.
  • Imprima as colunas ride_id, duration e user_birth_year de duplicated_rides nessa ordem.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Find duplicates
duplicates = ____.____(____, ____)

# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')

# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])
Editar e executar código