LoslegenKostenlos loslegen

Korrektur von Unstimmigkeiten

Da du nun festgestellt hast, dass dest_size Unstimmigkeiten bei den Leerzeichen und cleanliness Unstimmigkeiten bei der Großschreibung aufweist, nutzt du die neuen Werkzeuge, die dir zur Verfügung stehen, um die inkonsistenten Werte in sfo_survey zu korrigieren, anstatt die Datenpunkte komplett zu entfernen. Dies könnte zu Verzerrungen in deinem Datensatz führen, wenn mehr als 5% der Datenpunkte entfernt werden müssen.

dplyr und stringr sind geladen und sfo_survey ist verfügbar.

Diese Übung ist Teil des Kurses

Daten in R bereinigen

Kurs anzeigen

Anleitung zur Übung

  • Füge sfo_survey eine Spalte namens dest_size_trimmed hinzu, die die Werte in der Spalte dest_size enthält, wobei alle führenden und nachfolgenden Leerzeichen entfernt werden.
  • Füge eine weitere Spalte mit dem Namen cleanliness_lower hinzu, die die in Kleinbuchstaben umgewandelten Werte der Spalte cleanliness enthält.
  • Zähle die Anzahl der Vorkommen der einzelnen Kategorien auf dest_size_trimmed.
  • Zähle die Anzahl der Vorkommen der einzelnen Kategorien auf cleanliness_lower.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
  # dest_size_trimmed: dest_size without whitespace
  mutate(dest_size_trimmed = ___,
         # cleanliness_lower: cleanliness converted to lowercase
         cleanliness_lower = ___)

# Count values of dest_size_trimmed
sfo_survey %>%
  ___

# Count values of cleanliness_lower
sfo_survey %>%
  ___
Code bearbeiten und ausführen