Duplicati completi

Ti hanno informato che è stato aggiornato il data pipeline del bike sharing per renderlo più efficiente, ma che di conseguenza è più probabile generare duplicati. Per continuare a usare gli stessi script per le tue analisi settimanali sulle statistiche delle corse, devi prima assicurarti di rimuovere eventuali duplicati nell’insieme di dati.

Quando più righe di un data frame condividono gli stessi valori per tutte le colonne, sono duplicati completi l’una dell’altra. Rimuovere duplicati di questo tipo è importante, perché la ripetizione degli stessi valori può alterare statistiche riassuntive come media e mediana. Ogni corsa, incluso il suo ride_id, deve essere univoca.

dplyr è caricato e bike_share_rides è disponibile.

Questo esercizio fa parte del corso

Pulizia dei dati in R

Visualizza corso

Istruzioni dell'esercizio

Ottieni il numero totale di duplicati completi in bike_share_rides.
Rimuovi tutti i duplicati completi da bike_share_rides e salva il nuovo data frame come bike_share_rides_unique.
Ottieni il numero totale di duplicati completi nel nuovo data frame bike_share_rides_unique.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Count the number of full duplicates
___

# Remove duplicates
bike_share_rides_unique <- ___

# Count the full duplicates in bike_share_rides_unique
___

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Pulizia dei dati in R

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

In questo capitolo imparerai a superare alcuni dei problemi più comuni nei dati sporchi. Convertirai i tipi di dato, applicherai vincoli di intervallo per rimuovere punti dati futuri e eliminerai i duplicati per evitare doppi conteggi.

Exercise 1: Vincoli sui tipi di dati Exercise 2: Tipi di dati comuni Exercise 3: Conversione dei tipi di dato Exercise 4: Pulizia di stringhe Exercise 5: Vincoli di intervallo Exercise 6: Vincoli sulla durata delle corse Exercise 7: Ritorno al futuro Exercise 8: Vincoli di unicità Exercise 9: Duplicati completi

Esercizio attuale

Exercise 10: Rimozione dei duplicati parziali Exercise 11: Aggregare duplicati parziali

I dati categorici e testuali sono spesso le parti più disordinate di un insieme di dati per via della loro natura non strutturata. In questo capitolo imparerai a correggere spazi bianchi e incoerenze nelle maiuscole nelle etichette di categoria, ad accorpare più categorie in una sola e a riformattare le stringhe per garantire coerenza.

Exercise 1: Verificare l'appartenenza Exercise 2: Solo per membri Exercise 3: Non è un membro Exercise 4: Problemi con i dati categorici Exercise 5: Individuare le incoerenze Exercise 6: Correggere le incoerenze Exercise 7: Unire categorie Exercise 8: Pulire i dati testuali Exercise 9: Rilevare dati testuali incoerenti Exercise 10: Sostituire e rimuovere Exercise 11: Numeri di telefono non validi

In questo capitolo affronterai problemi di pulizia più avanzati, come garantire che i pesi siano tutti espressi in chilogrammi invece che in libbre. Acquisirai anche competenze preziose per verificare che i valori siano stati inseriti correttamente e che i valori mancanti non compromettano le tue analisi.

Exercise 1: Uniformità Exercise 2: Uniformità delle date Exercise 3: Uniformità della valuta Exercise 4: Convalida tra campi Exercise 5: Convalidare i totali Exercise 6: Convalidare l’età Exercise 7: Completezza Exercise 8: Tipi di mancanza Exercise 9: Visualizzare i valori mancanti Exercise 10: Gestione dei dati mancanti

Il record linkage è una potente tecnica per unire più insiemi di dati, utile quando i valori presentano refusi o grafie differenti. In questo capitolo imparerai a collegare i record calcolando la similarità tra stringhe; poi userai le nuove competenze per unire due insiemi di dati di recensioni di ristoranti in un unico insieme di dati pulito e principale.

Exercise 1: Confrontare le stringhe Exercise 2: Calcolare la distanza Exercise 3: Piccola distanza, piccola differenza Exercise 4: Correggere i refusi con la distanza tra stringhe Exercise 5: Generare e confrontare coppie Exercise 6: Collegare o fare una join?Exercise 7: Pair blocking Exercise 8: Confrontare le coppie Exercise 9: Valutare e collegare Exercise 10: Prima valutare e poi selezionare, o prima selezionare e poi valutare?Exercise 11: Mettere tutto insieme Exercise 12: Congratulazioni!