Teilweise Duplikate zusammenfassen
Eine andere Möglichkeit, mit partiellen Duplikaten umzugehen, besteht darin, eine zusammenfassende Statistik der Werte zu berechnen, die sich zwischen den partiellen Duplikaten unterscheiden, z. B. Mittelwert, Median, Maximum oder Minimum. Das kann nützlich sein, wenn du dir nicht sicher bist, wie deine Daten erhoben wurden, und einen Durchschnittswert brauchst, oder wenn du aufgrund deines Fachwissens lieber eine zu hohe Schätzung als eine zu niedrige Schätzung hast (oder umgekehrt).
dplyr
geladen ist und bike_share_rides
verfügbar ist.
Diese Übung ist Teil des Kurses
Daten in R bereinigen
Anleitung zur Übung
- Gruppiere
bike_share_rides
nachride_id
unddate
. - Füge eine Spalte mit dem Namen
duration_min_avg
hinzu, die die durchschnittliche Fahrtdauer für die Zeilenride_id
unddate
enthält. - Entferne Duplikate basierend auf
ride_id
unddate
, wobei alle Spalten des Datenrahmens erhalten bleiben. - Entferne die
duration_min
Säule.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
bike_share_rides %>%
# Group by ride_id and date
___ %>%
# Add duration_min_avg column
mutate(duration_min_avg = ___ ) %>%
# Remove duplicates based on ride_id and date, keep all cols
___ %>%
# Remove duration_min column
___(-___)