LoslegenKostenlos loslegen

Inkonsistenzen korrigieren

Jetzt, da du festgestellt hast, dass dest_size Leerzeichen-Inkonsistenzen und cleanliness Groß-/Kleinschreibungs-Inkonsistenzen aufweist, nutzt du die neuen Werkzeuge, um die inkonsistenten Werte in sfo_survey zu bereinigen, statt die Datenpunkte komplett zu entfernen. Das könnte sonst zu Verzerrungen führen, wenn mehr als 5 % der Datenpunkte wegfallen müssten.

dplyr und stringr sind geladen und sfo_survey ist verfügbar.

Diese Übung ist Teil des Kurses

Datenbereinigung in R

Kurs anzeigen

Anleitung zur Übung

  • Füge sfo_survey eine Spalte namens dest_size_trimmed hinzu, die die Werte aus der Spalte dest_size mit entfernten führenden und nachgestellten Leerzeichen enthält.
  • Füge eine weitere Spalte namens cleanliness_lower hinzu, die die Werte aus der Spalte cleanliness in Kleinbuchstaben enthält.
  • Zähle die Anzahl der Vorkommen jeder Kategorie in dest_size_trimmed.
  • Zähle die Anzahl der Vorkommen jeder Kategorie in cleanliness_lower.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
  # dest_size_trimmed: dest_size without whitespace
  mutate(dest_size_trimmed = ___,
         # cleanliness_lower: cleanliness converted to lowercase
         cleanliness_lower = ___)

# Count values of dest_size_trimmed
sfo_survey %>%
  ___

# Count values of cleanliness_lower
sfo_survey %>%
  ___
Code bearbeiten und ausführen