Strings bijsnijden
In de vorige oefening wist je het juiste gegevenstype te bepalen en user_birth_year om te zetten naar het juiste type, zodat je tellingen kon ophalen die je wat meer inzicht gaven in de gegevensset.
Een ander veelvoorkomend probleem met rommelige data is dat er extra stukjes, zoals procenttekens of punten, in getallen staan, waardoor ze als characters worden ingelezen. Om met deze getallen te kunnen rekenen, moeten die extra stukjes worden verwijderd en moeten de getallen worden geconverteerd van character naar numeric. In deze oefening moet je de kolom duration omzetten van character naar numeric, maar voordat dat kan, moet het woord "minutes" uit elke waarde worden verwijderd.
dplyr, assertive en stringr zijn geladen en bike_share_rides is beschikbaar.
Deze oefening maakt deel uit van de cursus
Data opschonen in R
Oefeninstructies
- Gebruik
str_remove()om"minutes"te verwijderen uit de kolomdurationvanbike_share_rides. Voeg dit toe als een nieuwe kolom met de naamduration_trimmed. - Zet de kolom
duration_trimmedom naar een numeriek type en voeg dit toe als een nieuwe kolom met de naamduration_mins. - Kijk met glimpse naar
bike_share_ridesen controleer dat de kolomduration_minsnumericis. - Bereken het gemiddelde van
duration_mins.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
bike_share_rides <- bike_share_rides %>%
# Remove 'minutes' from duration: duration_trimmed
mutate(duration_trimmed = ___,
# Convert duration_trimmed to numeric: duration_mins
duration_mins = ___)
# Glimpse at bike_share_rides
___
# Assert duration_mins is numeric
___
# Calculate mean duration
___