Aan de slagGa gratis aan de slag

Strings bijsnijden

In de vorige oefening wist je het juiste gegevenstype te bepalen en user_birth_year om te zetten naar het juiste type, zodat je tellingen kon ophalen die je wat meer inzicht gaven in de gegevensset.

Een ander veelvoorkomend probleem met rommelige data is dat er extra stukjes, zoals procenttekens of punten, in getallen staan, waardoor ze als characters worden ingelezen. Om met deze getallen te kunnen rekenen, moeten die extra stukjes worden verwijderd en moeten de getallen worden geconverteerd van character naar numeric. In deze oefening moet je de kolom duration omzetten van character naar numeric, maar voordat dat kan, moet het woord "minutes" uit elke waarde worden verwijderd.

dplyr, assertive en stringr zijn geladen en bike_share_rides is beschikbaar.

Deze oefening maakt deel uit van de cursus

Data opschonen in R

Cursus bekijken

Oefeninstructies

  • Gebruik str_remove() om "minutes" te verwijderen uit de kolom duration van bike_share_rides. Voeg dit toe als een nieuwe kolom met de naam duration_trimmed.
  • Zet de kolom duration_trimmed om naar een numeriek type en voeg dit toe als een nieuwe kolom met de naam duration_mins.
  • Kijk met glimpse naar bike_share_rides en controleer dat de kolom duration_mins numeric is.
  • Bereken het gemiddelde van duration_mins.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

bike_share_rides <- bike_share_rides %>%
  # Remove 'minutes' from duration: duration_trimmed
  mutate(duration_trimmed = ___,
         # Convert duration_trimmed to numeric: duration_mins
         duration_mins = ___)

# Glimpse at bike_share_rides
___

# Assert duration_mins is numeric
___

# Calculate mean duration
___
Code bewerken en uitvoeren