Teilweise Duplikate zusammenfassen
Eine andere Möglichkeit, mit partiellen Duplikaten umzugehen, besteht darin, eine zusammenfassende Statistik der Werte zu berechnen, die sich zwischen den partiellen Duplikaten unterscheiden, z. B. Mittelwert, Median, Maximum oder Minimum. Das kann nützlich sein, wenn du dir nicht sicher bist, wie deine Daten erhoben wurden, und einen Durchschnittswert brauchst, oder wenn du aufgrund deines Fachwissens lieber eine zu hohe Schätzung als eine zu niedrige Schätzung hast (oder umgekehrt).
dplyr geladen ist und bike_share_rides verfügbar ist.
Diese Übung ist Teil des Kurses
Daten in R bereinigen
Anleitung zur Übung
- Gruppiere
bike_share_ridesnachride_idunddate. - Füge eine Spalte mit dem Namen
duration_min_avghinzu, die die durchschnittliche Fahrtdauer für die Zeilenride_idunddateenthält. - Entferne Duplikate basierend auf
ride_idunddate, wobei alle Spalten des Datenrahmens erhalten bleiben. - Entferne die
duration_minSäule.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
bike_share_rides %>%
# Group by ride_id and date
___ %>%
# Add duration_min_avg column
mutate(duration_min_avg = ___ ) %>%
# Remove duplicates based on ride_id and date, keep all cols
___ %>%
# Remove duration_min column
___(-___)