Volledige duplicaten
Je hebt bericht gekregen dat de datapijplijn voor deelfietsen is bijgewerkt om efficiënter te worden, maar dat er daardoor waarschijnlijk vaker duplicaten ontstaan. Om ervoor te zorgen dat je dezelfde scripts kunt blijven gebruiken voor je wekelijkse analyses van ritstatistieken, moet je er eerst voor zorgen dat alle duplicaten in de gegevensset worden verwijderd.
Wanneer meerdere rijen in een data frame dezelfde waarden hebben voor alle kolommen, zijn het volledige duplicaten van elkaar. Zulke duplicaten verwijderen is belangrijk, omdat het herhalen van dezelfde waarde de samenvattingsstatistieken zoals het gemiddelde en de mediaan kan vertekenen. Elke rit, inclusief de ride_id, moet uniek zijn.
dplyr is geladen en bike_share_rides is beschikbaar.
Deze oefening maakt deel uit van de cursus
Data opschonen in R
Oefeninstructies
- Bepaal het totaal aantal volledige duplicaten in
bike_share_rides. - Verwijder alle volledige duplicaten uit
bike_share_ridesen sla het nieuwe data frame op alsbike_share_rides_unique. - Bepaal het totaal aantal volledige duplicaten in het nieuwe data frame
bike_share_rides_unique.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Count the number of full duplicates
___
# Remove duplicates
bike_share_rides_unique <- ___
# Count the full duplicates in bike_share_rides_unique
___