Localização de duplicatas
Uma nova atualização do pipeline de dados que alimenta ride_sharing
adicionou a coluna ride_id
, que representa um identificador exclusivo para cada viagem.
No entanto, a atualização coincidiu com tempos de duração média de viagem radicalmente mais curtos e datas de nascimento de usuários irregulares definidas no futuro. O mais importante é que o número de viagens realizadas aumentou 20% da noite para o dia, o que leva você a pensar que pode haver duplicatas completas e incompletas no DataFrame ride_sharing
.
Neste exercício, você confirmará essa suspeita encontrando essas duplicatas. Uma amostra do ride_sharing
está em seu ambiente, bem como todos os pacotes com os quais você trabalhou até agora.
Este exercício faz parte do curso
Limpeza de dados em Python
Instruções de exercício
- Encontre linhas duplicadas de
ride_id
no DataFrameride_sharing
enquanto você definekeep
comoFalse
. - Faça um subconjunto de
ride_sharing
emduplicates
, classifique porride_id
e atribua os resultados aduplicated_rides
. - Imprima as colunas
ride_id
,duration
euser_birth_year
deduplicated_rides
nessa ordem.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Find duplicates
duplicates = ____.____(____, ____)
# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')
# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])