Inkonsistenzen korrigieren

Jetzt, da du festgestellt hast, dass dest_size Leerzeichen-Inkonsistenzen und cleanliness Groß-/Kleinschreibungs-Inkonsistenzen aufweist, nutzt du die neuen Werkzeuge, um die inkonsistenten Werte in sfo_survey zu bereinigen, statt die Datenpunkte komplett zu entfernen. Das könnte sonst zu Verzerrungen führen, wenn mehr als 5 % der Datenpunkte wegfallen müssten.

dplyr und stringr sind geladen und sfo_survey ist verfügbar.

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung in R</Kurs>

Übungsanweisungen

Füge sfo_survey eine Spalte namens dest_size_trimmed hinzu, die die Werte aus der Spalte dest_size mit entfernten führenden und nachgestellten Leerzeichen enthält.
Füge eine weitere Spalte namens cleanliness_lower hinzu, die die Werte aus der Spalte cleanliness in Kleinbuchstaben enthält.
Zähle die Anzahl der Vorkommen jeder Kategorie in dest_size_trimmed.
Zähle die Anzahl der Vorkommen jeder Kategorie in cleanliness_lower.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
  # dest_size_trimmed: dest_size without whitespace
  mutate(dest_size_trimmed = ___,
         # cleanliness_lower: cleanliness converted to lowercase
         cleanliness_lower = ___)

# Count values of dest_size_trimmed
sfo_survey %>%
  ___

# Count values of cleanliness_lower
sfo_survey %>%
  ___

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung in R</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel lernst du, einige der häufigsten Probleme mit unsauberen Daten zu beheben. Du konvertierst Datentypen, wendest Wertebereichsgrenzen an, um zukünftige Datenpunkte zu entfernen, und entfernst doppelte Datenpunkte, um Doppelzählungen zu vermeiden.

Exercise 1: Datentyp-Beschränkungen Exercise 2: Häufige Datentypen Exercise 3: Datentypen konvertieren Exercise 4: Strings trimmen Exercise 5: Bereichsbedingungen Exercise 6: Beschränkungen für die Fahrtdauer Exercise 7: Zurück in die Zukunft Exercise 8: Eindeutigkeitsbeschränkungen Exercise 9: Vollständige Duplikate Exercise 10: Teilweise Duplikate entfernen Exercise 11: Partielle Duplikate aggregieren

Kategorische und Textdaten gehören durch ihre unstrukturierte Natur oft zu den unordentlichsten Teilen eines Datensatzes. In diesem Kapitel behebst du Inkonsistenzen bei Leerzeichen und Groß-/Kleinschreibung in Kategorienamen, fasst mehrere Kategorien zusammen und formatierst Strings einheitlich um.

Exercise 1: Mitgliedschaft prüfen Exercise 2: Nur für Mitglieder Exercise 3: Kein Mitglied Exercise 4: Probleme mit kategorialen Daten Exercise 5: Inkonsistenzen erkennen Exercise 6: Inkonsistenzen korrigieren

Aktuelle Übung

Exercise 7: Kategorien zusammenfassen Exercise 8: Textdaten bereinigen Exercise 9: Inkonsistente Textdaten erkennen Exercise 10: Ersetzen und Entfernen Exercise 11: Ungültige Telefonnummern

In diesem Kapitel widmest du dich fortgeschritteneren Problemen der Datenbereinigung, zum Beispiel sicherzustellen, dass Gewichte einheitlich in Kilogramm statt in Pfund angegeben sind. Außerdem erwirbst du wichtige Fähigkeiten, mit denen du prüfen kannst, ob Werte korrekt erfasst wurden und fehlende Werte deine Analysen nicht negativ beeinflussen.

Exercise 1: Einheitlichkeit Exercise 2: Einheitlichkeit von Datumsangaben Exercise 3: Einheitliche Währung Exercise 4: Validierung über Felder hinweg Exercise 5: Summen validieren Exercise 6: Alter validieren Exercise 7: Vollständigkeit Exercise 8: Arten von Fehlwerten Exercise 9: Fehlende Daten visualisieren Exercise 10: Umgang mit fehlenden Daten

Record Linkage ist eine leistungsstarke Technik zum Zusammenführen mehrerer Datensätze, wenn Werte Tippfehler oder unterschiedliche Schreibweisen aufweisen. In diesem Kapitel lernst du, Datensätze zu verknüpfen, indem du die Ähnlichkeit zwischen Strings berechnest — anschließend nutzt du deine neuen Fähigkeiten, um zwei Datensätze mit Restaurantbewertungen zu einem sauberen, zusammengeführten Master-Datensatz zu verbinden.

Exercise 1: Zeichenketten vergleichen Exercise 2: Distanz berechnen Exercise 3: Kleine Distanz, kleiner Unterschied Exercise 4: Tippfehler mit String-Distanz korrigieren Exercise 5: Paare erzeugen und vergleichen Exercise 6: Linken oder joinen?Exercise 7: Pair-Blocking Exercise 8: Paare vergleichen Exercise 9: Bewerten und verknüpfen Exercise 10: Erst bewerten, dann auswählen – oder erst auswählen, dann bewerten?Exercise 11: Alles zusammenführen Exercise 12: Glückwunsch!