Aan de slagGa gratis aan de slag

Volledige duplicaten

Je hebt bericht gekregen dat de datapijplijn voor deelfietsen is bijgewerkt om efficiënter te worden, maar dat er daardoor waarschijnlijk vaker duplicaten ontstaan. Om ervoor te zorgen dat je dezelfde scripts kunt blijven gebruiken voor je wekelijkse analyses van ritstatistieken, moet je er eerst voor zorgen dat alle duplicaten in de gegevensset worden verwijderd.

Wanneer meerdere rijen in een data frame dezelfde waarden hebben voor alle kolommen, zijn het volledige duplicaten van elkaar. Zulke duplicaten verwijderen is belangrijk, omdat het herhalen van dezelfde waarde de samenvattingsstatistieken zoals het gemiddelde en de mediaan kan vertekenen. Elke rit, inclusief de ride_id, moet uniek zijn.

dplyr is geladen en bike_share_rides is beschikbaar.

Deze oefening maakt deel uit van de cursus

Data opschonen in R

Cursus bekijken

Oefeninstructies

  • Bepaal het totaal aantal volledige duplicaten in bike_share_rides.
  • Verwijder alle volledige duplicaten uit bike_share_rides en sla het nieuwe data frame op als bike_share_rides_unique.
  • Bepaal het totaal aantal volledige duplicaten in het nieuwe data frame bike_share_rides_unique.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Count the number of full duplicates
___

# Remove duplicates
bike_share_rides_unique <- ___

# Count the full duplicates in bike_share_rides_unique
___
Code bewerken en uitvoeren