Inkonsistenzen korrigieren
Jetzt, da du festgestellt hast, dass dest_size Leerzeichen-Inkonsistenzen und cleanliness Groß-/Kleinschreibungs-Inkonsistenzen aufweist, nutzt du die neuen Werkzeuge, um die inkonsistenten Werte in sfo_survey zu bereinigen, statt die Datenpunkte komplett zu entfernen. Das könnte sonst zu Verzerrungen führen, wenn mehr als 5 % der Datenpunkte wegfallen müssten.
dplyr und stringr sind geladen und sfo_survey ist verfügbar.
Diese Übung ist Teil des Kurses
Datenbereinigung in R
Anleitung zur Übung
- Füge
sfo_surveyeine Spalte namensdest_size_trimmedhinzu, die die Werte aus der Spaltedest_sizemit entfernten führenden und nachgestellten Leerzeichen enthält. - Füge eine weitere Spalte namens
cleanliness_lowerhinzu, die die Werte aus der Spaltecleanlinessin Kleinbuchstaben enthält. - Zähle die Anzahl der Vorkommen jeder Kategorie in
dest_size_trimmed. - Zähle die Anzahl der Vorkommen jeder Kategorie in
cleanliness_lower.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
# dest_size_trimmed: dest_size without whitespace
mutate(dest_size_trimmed = ___,
# cleanliness_lower: cleanliness converted to lowercase
cleanliness_lower = ___)
# Count values of dest_size_trimmed
sfo_survey %>%
___
# Count values of cleanliness_lower
sfo_survey %>%
___