Duplicati completi
Ti hanno informato che è stato aggiornato il data pipeline del bike sharing per renderlo più efficiente, ma che di conseguenza è più probabile generare duplicati. Per continuare a usare gli stessi script per le tue analisi settimanali sulle statistiche delle corse, devi prima assicurarti di rimuovere eventuali duplicati nell’insieme di dati.
Quando più righe di un data frame condividono gli stessi valori per tutte le colonne, sono duplicati completi l’una dell’altra. Rimuovere duplicati di questo tipo è importante, perché la ripetizione degli stessi valori può alterare statistiche riassuntive come media e mediana. Ogni corsa, incluso il suo ride_id, deve essere univoca.
dplyr è caricato e bike_share_rides è disponibile.
Questo esercizio fa parte del corso
Pulizia dei dati in R
Istruzioni dell'esercizio
- Ottieni il numero totale di duplicati completi in
bike_share_rides. - Rimuovi tutti i duplicati completi da
bike_share_ridese salva il nuovo data frame comebike_share_rides_unique. - Ottieni il numero totale di duplicati completi nel nuovo data frame
bike_share_rides_unique.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Count the number of full duplicates
___
# Remove duplicates
bike_share_rides_unique <- ___
# Count the full duplicates in bike_share_rides_unique
___