IniziaInizia gratis

Duplicati completi

Ti hanno informato che è stato aggiornato il data pipeline del bike sharing per renderlo più efficiente, ma che di conseguenza è più probabile generare duplicati. Per continuare a usare gli stessi script per le tue analisi settimanali sulle statistiche delle corse, devi prima assicurarti di rimuovere eventuali duplicati nell’insieme di dati.

Quando più righe di un data frame condividono gli stessi valori per tutte le colonne, sono duplicati completi l’una dell’altra. Rimuovere duplicati di questo tipo è importante, perché la ripetizione degli stessi valori può alterare statistiche riassuntive come media e mediana. Ogni corsa, incluso il suo ride_id, deve essere univoca.

dplyr è caricato e bike_share_rides è disponibile.

Questo esercizio fa parte del corso

Pulizia dei dati in R

Visualizza il corso

Istruzioni dell'esercizio

  • Ottieni il numero totale di duplicati completi in bike_share_rides.
  • Rimuovi tutti i duplicati completi da bike_share_rides e salva il nuovo data frame come bike_share_rides_unique.
  • Ottieni il numero totale di duplicati completi nel nuovo data frame bike_share_rides_unique.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Count the number of full duplicates
___

# Remove duplicates
bike_share_rides_unique <- ___

# Count the full duplicates in bike_share_rides_unique
___
Modifica ed esegui il codice