Trovare i duplicati

Un nuovo aggiornamento della pipeline di dati che alimenta ride_sharing ha aggiunto la colonna ride_id, che rappresenta un identificatore univoco per ogni corsa.

Tuttavia, l’aggiornamento ha coinciso con una drastica riduzione della durata media delle corse e con date di nascita degli utenti irregolari, persino nel futuro. Ancora più importante, il numero di corse effettuate è aumentato del 20% in una notte, portandoti a pensare che possano esserci duplicati sia completi sia incompleti nel DataFrame ride_sharing.

In questo esercizio, confermerai questo sospetto individuando tali duplicati. Un campione di ride_sharing è già nel tuo ambiente, così come tutti i pacchetti con cui hai lavorato finora.

Questo esercizio fa parte del corso

Pulizia dei dati in Python

Visualizza corso

Istruzioni dell'esercizio

Trova le righe duplicate di ride_id nel DataFrame ride_sharing impostando keep su False.
Sottoinsieme ride_sharing con duplicates, ordina per ride_id e assegna i risultati a duplicated_rides.
Stampa le colonne ride_id, duration e user_birth_year in quest’ordine da duplicated_rides.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Find duplicates
duplicates = ____.____(____, ____)

# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')

# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Pulizia dei dati in Python

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

In questo capitolo imparerai a superare alcuni dei problemi più comuni dei dati sporchi. Convertirai i tipi di dato, applicherai vincoli di intervallo per rimuovere i punti dati futuri e eliminerai i duplicati per evitare doppi conteggi.

Exercise 1: Vincoli sui tipi di dati Exercise 2: Tipi di dato comuni Exercise 3: Dati numerici o ... ?Exercise 4: Somma di stringhe e concatenazione di numeri Exercise 5: Vincoli sugli intervalli di dati Exercise 6: Vincoli sulla misura degli pneumatici Exercise 7: Ritorno al futuro Exercise 8: Vincoli di unicità Exercise 9: Quanto è grande il tuo sottoinsieme?Exercise 10: Trovare i duplicati

Esercizio attuale

Exercise 11: Gestire i duplicati

I dati categorici e testuali sono spesso tra le parti più disordinate di un insieme di dati a causa della loro natura non strutturata. In questo capitolo imparerai a correggere incongruenze di spazi bianchi e maiuscole/minuscole nelle etichette di categoria, a unire più categorie in una sola e a riformattare le stringhe per garantire coerenza.

Exercise 1: Vincoli di appartenenza Exercise 2: Solo per membri Exercise 3: Trovare la coerenza Exercise 4: Variabili categoriche Exercise 5: Categorie di errori Exercise 6: Categorie incoerenti Exercise 7: Rimappare le categorie Exercise 8: Pulire i dati testuali Exercise 9: Rimuovere i titoli e prendere i nomi Exercise 10: Mantienilo descrittivo

In questo capitolo affronterai problemi di pulizia dei dati più avanzati, come assicurarti che i pesi siano tutti espressi in chilogrammi invece che in libbre. Acquisirai anche competenze preziose per verificare che i valori siano stati sommati correttamente e che i valori mancanti non influenzino negativamente le tue analisi.

Exercise 1: Uniformità Exercise 2: Date ambigue Exercise 3: Valute uniformi Exercise 4: Date uniformi Exercise 5: Convalida tra campi Exercise 6: Validazione incrociata o no?Exercise 7: Com'è messa l'integrità dei nostri dati?Exercise 8: Completezza Exercise 9: Questi valori sono missing at random?Exercise 10: Investitori mancanti Exercise 11: Segui il denaro

Il record linkage è una tecnica potente usata per unire più insiemi di dati quando i valori presentano refusi o grafie diverse. In questo capitolo imparerai a collegare i record calcolando la somiglianza tra stringhe; poi userai le nuove competenze per unire due insiemi di recensioni di ristoranti in un unico insieme principale pulito.

Exercise 1: Confrontare le stringhe Exercise 2: Distanza di edit minima Exercise 3: Il punto di cutoff Exercise 4: Rimappare le categorie II Exercise 5: Generare coppie Exercise 6: Collegare o non collegare?Exercise 7: Coppie di ristoranti Exercise 8: Ristoranti simili Exercise 9: Collegare i DataFrame Exercise 10: Ottenere l'indice giusto Exercise 11: Collegali insieme!Exercise 12: Congratulazioni!