Korrektur von Unstimmigkeiten
Da du nun festgestellt hast, dass dest_size
Unstimmigkeiten bei den Leerzeichen und cleanliness
Unstimmigkeiten bei der Großschreibung aufweist, nutzt du die neuen Werkzeuge, die dir zur Verfügung stehen, um die inkonsistenten Werte in sfo_survey
zu korrigieren, anstatt die Datenpunkte komplett zu entfernen. Dies könnte zu Verzerrungen in deinem Datensatz führen, wenn mehr als 5% der Datenpunkte entfernt werden müssen.
dplyr
und stringr
sind geladen und sfo_survey
ist verfügbar.
Diese Übung ist Teil des Kurses
Daten in R bereinigen
Anleitung zur Übung
- Füge
sfo_survey
eine Spalte namensdest_size_trimmed
hinzu, die die Werte in der Spaltedest_size
enthält, wobei alle führenden und nachfolgenden Leerzeichen entfernt werden. - Füge eine weitere Spalte mit dem Namen
cleanliness_lower
hinzu, die die in Kleinbuchstaben umgewandelten Werte der Spaltecleanliness
enthält. - Zähle die Anzahl der Vorkommen der einzelnen Kategorien auf
dest_size_trimmed
. - Zähle die Anzahl der Vorkommen der einzelnen Kategorien auf
cleanliness_lower
.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
# dest_size_trimmed: dest_size without whitespace
mutate(dest_size_trimmed = ___,
# cleanliness_lower: cleanliness converted to lowercase
cleanliness_lower = ___)
# Count values of dest_size_trimmed
sfo_survey %>%
___
# Count values of cleanliness_lower
sfo_survey %>%
___