Gestire i duplicati

Nell'ultimo esercizio, hai verificato che il nuovo aggiornamento che alimenta ride_sharing contiene un bug che genera righe duplicate sia complete sia incomplete per alcuni valori della colonna ride_id, con occasionali discrepanze nelle colonne user_birth_year e duration.

In questo esercizio, gestirai quelle righe duplicate eliminando prima i duplicati completi e poi unendo le righe duplicate incomplete in una sola, mantenendo la duration media e il user_birth_year minimo per ciascun insieme di duplicati incompleti.

Questo esercizio fa parte del corso

Pulizia dei dati in Python

Visualizza corso

Istruzioni dell'esercizio

Elimina i duplicati completi in ride_sharing e salva i risultati in ride_dup.
Crea il dizionario statistics che contenga l'aggregazione minima per user_birth_year e mean per duration.
Elimina i duplicati incompleti raggruppando per ride_id e applicando le aggregazioni in statistics.
Trova di nuovo i duplicati ed esegui l'istruzione assert per verificare la de-duplicazione.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Drop complete duplicates from ride_sharing
ride_dup = ____.____()

# Create statistics dictionary for aggregation function
statistics = {'user_birth_year': ____, 'duration': ____}

# Group by ride_id and compute new statistics
ride_unique = ride_dup.____('____').____(____).reset_index()

# Find duplicated values again
duplicates = ride_unique.____(subset = 'ride_id', keep = False)
duplicated_rides = ride_unique[duplicates == True]

# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Pulizia dei dati in Python

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

In questo capitolo imparerai a superare alcuni dei problemi più comuni dei dati sporchi. Convertirai i tipi di dato, applicherai vincoli di intervallo per rimuovere i punti dati futuri e eliminerai i duplicati per evitare doppi conteggi.

Exercise 1: Vincoli sui tipi di dati Exercise 2: Tipi di dato comuni Exercise 3: Dati numerici o ... ?Exercise 4: Somma di stringhe e concatenazione di numeri Exercise 5: Vincoli sugli intervalli di dati Exercise 6: Vincoli sulla misura degli pneumatici Exercise 7: Ritorno al futuro Exercise 8: Vincoli di unicità Exercise 9: Quanto è grande il tuo sottoinsieme?Exercise 10: Trovare i duplicati Exercise 11: Gestire i duplicati

Esercizio attuale

I dati categorici e testuali sono spesso tra le parti più disordinate di un insieme di dati a causa della loro natura non strutturata. In questo capitolo imparerai a correggere incongruenze di spazi bianchi e maiuscole/minuscole nelle etichette di categoria, a unire più categorie in una sola e a riformattare le stringhe per garantire coerenza.

Exercise 1: Vincoli di appartenenza Exercise 2: Solo per membri Exercise 3: Trovare la coerenza Exercise 4: Variabili categoriche Exercise 5: Categorie di errori Exercise 6: Categorie incoerenti Exercise 7: Rimappare le categorie Exercise 8: Pulire i dati testuali Exercise 9: Rimuovere i titoli e prendere i nomi Exercise 10: Mantienilo descrittivo

In questo capitolo affronterai problemi di pulizia dei dati più avanzati, come assicurarti che i pesi siano tutti espressi in chilogrammi invece che in libbre. Acquisirai anche competenze preziose per verificare che i valori siano stati sommati correttamente e che i valori mancanti non influenzino negativamente le tue analisi.

Exercise 1: Uniformità Exercise 2: Date ambigue Exercise 3: Valute uniformi Exercise 4: Date uniformi Exercise 5: Convalida tra campi Exercise 6: Validazione incrociata o no?Exercise 7: Com'è messa l'integrità dei nostri dati?Exercise 8: Completezza Exercise 9: Questi valori sono missing at random?Exercise 10: Investitori mancanti Exercise 11: Segui il denaro

Il record linkage è una tecnica potente usata per unire più insiemi di dati quando i valori presentano refusi o grafie diverse. In questo capitolo imparerai a collegare i record calcolando la somiglianza tra stringhe; poi userai le nuove competenze per unire due insiemi di recensioni di ristoranti in un unico insieme principale pulito.

Exercise 1: Confrontare le stringhe Exercise 2: Distanza di edit minima Exercise 3: Il punto di cutoff Exercise 4: Rimappare le categorie II Exercise 5: Generare coppie Exercise 6: Collegare o non collegare?Exercise 7: Coppie di ristoranti Exercise 8: Ristoranti simili Exercise 9: Collegare i DataFrame Exercise 10: Ottenere l'indice giusto Exercise 11: Collegali insieme!Exercise 12: Congratulazioni!