LoslegenKostenlos loslegen

Partielle Duplikate aggregieren

Eine weitere Möglichkeit, mit partiellen Duplikaten umzugehen, ist das Berechnen einer Kennzahl für die Werte, die sich zwischen partiellen Duplikaten unterscheiden, zum Beispiel Mittelwert, Median, Maximum oder Minimum. Das ist hilfreich, wenn du nicht genau weißt, wie deine Daten erhoben wurden und einen Durchschnitt möchtest, oder wenn du aufgrund von Domänenwissen lieber eine zu hohe als eine zu niedrige Schätzung (oder umgekehrt) hättest.

dplyr ist geladen und bike_share_rides ist verfügbar.

Diese Übung ist Teil des Kurses

Datenbereinigung in R

Kurs anzeigen

Anleitung zur Übung

  • Gruppiere bike_share_rides nach ride_id und date.
  • Füge eine Spalte duration_min_avg hinzu, die die durchschnittliche Fahrtdauer für die jeweilige ride_id und date der Zeile enthält.
  • Entferne Duplikate basierend auf ride_id und date und behalte alle Spalten des Data Frames.
  • Entferne die Spalte duration_min.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

bike_share_rides %>%
  # Group by ride_id and date
  ___ %>%
  # Add duration_min_avg column
  mutate(duration_min_avg = ___ ) %>%
  # Remove duplicates based on ride_id and date, keep all cols
  ___ %>%
  # Remove duration_min column
  ___(-___)
Code bearbeiten und ausführen