Strings trimmen
In der vorherigen Übung konntest du den richtigen Datentyp identifizieren und user_birth_year korrekt konvertieren, sodass du Zählwerte extrahieren konntest, die dir etwas mehr Einblick in den Datensatz gaben.
Ein weiteres häufiges Problem bei schmutzigen Daten sind zusätzliche Elemente wie Prozentzeichen oder Punkte in Zahlen, wodurch sie als characters eingelesen werden. Damit du mit diesen Zahlen rechnen kannst, müssen die Extras entfernt und die Zahlen von character zu numeric konvertiert werden. In dieser Übung musst du die Spalte duration von character zu numeric konvertieren, aber bevor das passieren kann, muss das Wort "minutes" aus jedem Wert entfernt werden.
dplyr, assertive und stringr sind geladen und bike_share_rides ist verfügbar.
Diese Übung ist Teil des Kurses
Datenbereinigung in R
Anleitung zur Übung
- Verwende
str_remove(), um"minutes"aus der Spaltedurationvonbike_share_rideszu entfernen. Füge dies als neue Spalte namensduration_trimmedhinzu. - Konvertiere die Spalte
duration_trimmedin den numerischen Typ und füge sie als neue Spalte namensduration_minshinzu. - Wirf einen Blick auf
bike_share_ridesund stelle sicher, dass die Spalteduration_minsvom Typnumericist. - Berechne den Mittelwert von
duration_mins.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
bike_share_rides <- bike_share_rides %>%
# Remove 'minutes' from duration: duration_trimmed
mutate(duration_trimmed = ___,
# Convert duration_trimmed to numeric: duration_mins
duration_mins = ___)
# Glimpse at bike_share_rides
___
# Assert duration_mins is numeric
___
# Calculate mean duration
___