Trovare i duplicati
Un nuovo aggiornamento della pipeline di dati che alimenta ride_sharing ha aggiunto la colonna ride_id, che rappresenta un identificatore univoco per ogni corsa.
Tuttavia, l’aggiornamento ha coinciso con una drastica riduzione della durata media delle corse e con date di nascita degli utenti irregolari, persino nel futuro. Ancora più importante, il numero di corse effettuate è aumentato del 20% in una notte, portandoti a pensare che possano esserci duplicati sia completi sia incompleti nel DataFrame ride_sharing.
In questo esercizio, confermerai questo sospetto individuando tali duplicati. Un campione di ride_sharing è già nel tuo ambiente, così come tutti i pacchetti con cui hai lavorato finora.
Questo esercizio fa parte del corso
Pulizia dei dati in Python
Istruzioni dell'esercizio
- Trova le righe duplicate di
ride_idnel DataFrameride_sharingimpostandokeepsuFalse. - Sottoinsieme
ride_sharingconduplicates, ordina perride_ide assegna i risultati aduplicated_rides. - Stampa le colonne
ride_id,durationeuser_birth_yearin quest’ordine daduplicated_rides.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Find duplicates
duplicates = ____.____(____, ____)
# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')
# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])