Partielle Duplikate aggregieren
Eine weitere Möglichkeit, mit partiellen Duplikaten umzugehen, ist das Berechnen einer Kennzahl für die Werte, die sich zwischen partiellen Duplikaten unterscheiden, zum Beispiel Mittelwert, Median, Maximum oder Minimum. Das ist hilfreich, wenn du nicht genau weißt, wie deine Daten erhoben wurden und einen Durchschnitt möchtest, oder wenn du aufgrund von Domänenwissen lieber eine zu hohe als eine zu niedrige Schätzung (oder umgekehrt) hättest.
dplyr ist geladen und bike_share_rides ist verfügbar.
Diese Übung ist Teil des Kurses
Datenbereinigung in R
Anleitung zur Übung
- Gruppiere
bike_share_ridesnachride_idunddate. - Füge eine Spalte
duration_min_avghinzu, die die durchschnittliche Fahrtdauer für die jeweiligeride_idunddateder Zeile enthält. - Entferne Duplikate basierend auf
ride_idunddateund behalte alle Spalten des Data Frames. - Entferne die Spalte
duration_min.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
bike_share_rides %>%
# Group by ride_id and date
___ %>%
# Add duration_min_avg column
mutate(duration_min_avg = ___ ) %>%
# Remove duplicates based on ride_id and date, keep all cols
___ %>%
# Remove duration_min column
___(-___)