Partielle Duplikate aggregieren

Eine weitere Möglichkeit, mit partiellen Duplikaten umzugehen, ist das Berechnen einer Kennzahl für die Werte, die sich zwischen partiellen Duplikaten unterscheiden, zum Beispiel Mittelwert, Median, Maximum oder Minimum. Das ist hilfreich, wenn du nicht genau weißt, wie deine Daten erhoben wurden und einen Durchschnitt möchtest, oder wenn du aufgrund von Domänenwissen lieber eine zu hohe als eine zu niedrige Schätzung (oder umgekehrt) hättest.

dplyr ist geladen und bike_share_rides ist verfügbar.

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung in R</Kurs>

Übungsanweisungen

Gruppiere bike_share_rides nach ride_id und date.
Füge eine Spalte duration_min_avg hinzu, die die durchschnittliche Fahrtdauer für die jeweilige ride_id und date der Zeile enthält.
Entferne Duplikate basierend auf ride_id und date und behalte alle Spalten des Data Frames.
Entferne die Spalte duration_min.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

bike_share_rides %>%
  # Group by ride_id and date
  ___ %>%
  # Add duration_min_avg column
  mutate(duration_min_avg = ___ ) %>%
  # Remove duplicates based on ride_id and date, keep all cols
  ___ %>%
  # Remove duration_min column
  ___(-___)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung in R</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel lernst du, einige der häufigsten Probleme mit unsauberen Daten zu beheben. Du konvertierst Datentypen, wendest Wertebereichsgrenzen an, um zukünftige Datenpunkte zu entfernen, und entfernst doppelte Datenpunkte, um Doppelzählungen zu vermeiden.

Exercise 1: Datentyp-Beschränkungen Exercise 2: Häufige Datentypen Exercise 3: Datentypen konvertieren Exercise 4: Strings trimmen Exercise 5: Bereichsbedingungen Exercise 6: Beschränkungen für die Fahrtdauer Exercise 7: Zurück in die Zukunft Exercise 8: Eindeutigkeitsbeschränkungen Exercise 9: Vollständige Duplikate Exercise 10: Teilweise Duplikate entfernen Exercise 11: Partielle Duplikate aggregieren

Aktuelle Übung

Kategorische und Textdaten gehören durch ihre unstrukturierte Natur oft zu den unordentlichsten Teilen eines Datensatzes. In diesem Kapitel behebst du Inkonsistenzen bei Leerzeichen und Groß-/Kleinschreibung in Kategorienamen, fasst mehrere Kategorien zusammen und formatierst Strings einheitlich um.

Exercise 1: Mitgliedschaft prüfen Exercise 2: Nur für Mitglieder Exercise 3: Kein Mitglied Exercise 4: Probleme mit kategorialen Daten Exercise 5: Inkonsistenzen erkennen Exercise 6: Inkonsistenzen korrigieren Exercise 7: Kategorien zusammenfassen Exercise 8: Textdaten bereinigen Exercise 9: Inkonsistente Textdaten erkennen Exercise 10: Ersetzen und Entfernen Exercise 11: Ungültige Telefonnummern

In diesem Kapitel widmest du dich fortgeschritteneren Problemen der Datenbereinigung, zum Beispiel sicherzustellen, dass Gewichte einheitlich in Kilogramm statt in Pfund angegeben sind. Außerdem erwirbst du wichtige Fähigkeiten, mit denen du prüfen kannst, ob Werte korrekt erfasst wurden und fehlende Werte deine Analysen nicht negativ beeinflussen.

Exercise 1: Einheitlichkeit Exercise 2: Einheitlichkeit von Datumsangaben Exercise 3: Einheitliche Währung Exercise 4: Validierung über Felder hinweg Exercise 5: Summen validieren Exercise 6: Alter validieren Exercise 7: Vollständigkeit Exercise 8: Arten von Fehlwerten Exercise 9: Fehlende Daten visualisieren Exercise 10: Umgang mit fehlenden Daten

Record Linkage ist eine leistungsstarke Technik zum Zusammenführen mehrerer Datensätze, wenn Werte Tippfehler oder unterschiedliche Schreibweisen aufweisen. In diesem Kapitel lernst du, Datensätze zu verknüpfen, indem du die Ähnlichkeit zwischen Strings berechnest — anschließend nutzt du deine neuen Fähigkeiten, um zwei Datensätze mit Restaurantbewertungen zu einem sauberen, zusammengeführten Master-Datensatz zu verbinden.

Exercise 1: Zeichenketten vergleichen Exercise 2: Distanz berechnen Exercise 3: Kleine Distanz, kleiner Unterschied Exercise 4: Tippfehler mit String-Distanz korrigieren Exercise 5: Paare erzeugen und vergleichen Exercise 6: Linken oder joinen?Exercise 7: Pair-Blocking Exercise 8: Paare vergleichen Exercise 9: Bewerten und verknüpfen Exercise 10: Erst bewerten, dann auswählen – oder erst auswählen, dann bewerten?Exercise 11: Alles zusammenführen Exercise 12: Glückwunsch!