IniziaInizia gratis

Trovare i duplicati

Un nuovo aggiornamento della pipeline di dati che alimenta ride_sharing ha aggiunto la colonna ride_id, che rappresenta un identificatore univoco per ogni corsa.

Tuttavia, l’aggiornamento ha coinciso con una drastica riduzione della durata media delle corse e con date di nascita degli utenti irregolari, persino nel futuro. Ancora più importante, il numero di corse effettuate è aumentato del 20% in una notte, portandoti a pensare che possano esserci duplicati sia completi sia incompleti nel DataFrame ride_sharing.

In questo esercizio, confermerai questo sospetto individuando tali duplicati. Un campione di ride_sharing è già nel tuo ambiente, così come tutti i pacchetti con cui hai lavorato finora.

Questo esercizio fa parte del corso

Pulizia dei dati in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Trova le righe duplicate di ride_id nel DataFrame ride_sharing impostando keep su False.
  • Sottoinsieme ride_sharing con duplicates, ordina per ride_id e assegna i risultati a duplicated_rides.
  • Stampa le colonne ride_id, duration e user_birth_year in quest’ordine da duplicated_rides.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Find duplicates
duplicates = ____.____(____, ____)

# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')

# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])
Modifica ed esegui il codice