Korrektur von Unstimmigkeiten
Da du nun festgestellt hast, dass dest_size Unstimmigkeiten bei den Leerzeichen und cleanliness Unstimmigkeiten bei der Großschreibung aufweist, nutzt du die neuen Werkzeuge, die dir zur Verfügung stehen, um die inkonsistenten Werte in sfo_survey zu korrigieren, anstatt die Datenpunkte komplett zu entfernen. Dies könnte zu Verzerrungen in deinem Datensatz führen, wenn mehr als 5% der Datenpunkte entfernt werden müssen.
dplyr und stringr sind geladen und sfo_survey ist verfügbar.
Diese Übung ist Teil des Kurses
Daten in R bereinigen
Anleitung zur Übung
- Füge
sfo_surveyeine Spalte namensdest_size_trimmedhinzu, die die Werte in der Spaltedest_sizeenthält, wobei alle führenden und nachfolgenden Leerzeichen entfernt werden. - Füge eine weitere Spalte mit dem Namen
cleanliness_lowerhinzu, die die in Kleinbuchstaben umgewandelten Werte der Spaltecleanlinessenthält. - Zähle die Anzahl der Vorkommen der einzelnen Kategorien auf
dest_size_trimmed. - Zähle die Anzahl der Vorkommen der einzelnen Kategorien auf
cleanliness_lower.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
# dest_size_trimmed: dest_size without whitespace
mutate(dest_size_trimmed = ___,
# cleanliness_lower: cleanliness converted to lowercase
cleanliness_lower = ___)
# Count values of dest_size_trimmed
sfo_survey %>%
___
# Count values of cleanliness_lower
sfo_survey %>%
___