Gedeeltelijke duplicaten verwijderen
Nu je de volledige duplicaten hebt gevonden en verwijderd, is het tijd om te controleren op gedeeltelijke duplicaten. Gedeeltelijke duplicaten zijn wat lastiger aan te pakken dan volledige duplicaten. In deze oefening identificeer je eerst eventuele gedeeltelijke duplicaten en oefen je daarna de meestgebruikte techniek om ermee om te gaan: alle gedeeltelijke duplicaten verwijderen en alleen de eerste behouden.
dplyr is geladen en bike_share_rides is beschikbaar.
Deze oefening maakt deel uit van de cursus
Data opschonen in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Find duplicated ride_ids
bike_share_rides %>%
# Count the number of occurrences of each ride_id
___ %>%
# Filter for rows with a count > 1
___