Erste SchritteKostenlos loslegen

Teilweise Duplikate zusammenfassen

Eine andere Möglichkeit, mit partiellen Duplikaten umzugehen, besteht darin, eine zusammenfassende Statistik der Werte zu berechnen, die sich zwischen den partiellen Duplikaten unterscheiden, z. B. Mittelwert, Median, Maximum oder Minimum. Das kann nützlich sein, wenn du dir nicht sicher bist, wie deine Daten erhoben wurden, und einen Durchschnittswert brauchst, oder wenn du aufgrund deines Fachwissens lieber eine zu hohe Schätzung als eine zu niedrige Schätzung hast (oder umgekehrt).

dplyr geladen ist und bike_share_rides verfügbar ist.

Diese Übung ist Teil des Kurses

Daten in R bereinigen

Kurs anzeigen

Anleitung zur Übung

  • Gruppiere bike_share_rides nach ride_id und date.
  • Füge eine Spalte mit dem Namen duration_min_avg hinzu, die die durchschnittliche Fahrtdauer für die Zeilen ride_id und date enthält.
  • Entferne Duplikate basierend auf ride_id und date, wobei alle Spalten des Datenrahmens erhalten bleiben.
  • Entferne die duration_min Säule.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

bike_share_rides %>%
  # Group by ride_id and date
  ___ %>%
  # Add duration_min_avg column
  mutate(duration_min_avg = ___ ) %>%
  # Remove duplicates based on ride_id and date, keep all cols
  ___ %>%
  # Remove duration_min column
  ___(-___)
Bearbeiten und Ausführen von Code