Vollständige Duplikate
Du wurdest darüber informiert, dass die Bikesharing-Datenpipeline aktualisiert wurde, um sie effizienter zu machen, aber dass dadurch wahrscheinlich mehr Duplikate entstehen. Um sicherzustellen, dass du weiterhin dieselben Skripte für deine wöchentlichen Analysen der Fahrstatistiken verwenden kannst, musst du zunächst sicherstellen, dass alle Duplikate im Datensatz entfernt werden.
Wenn mehrere Zeilen eines Datenrahmens für alle Spalten die gleichen Werte haben, sind sie vollständige Duplikate voneinander. Das Entfernen solcher Duplikate ist wichtig, denn wenn derselbe Wert mehrmals wiederholt wird, können sich zusammenfassende Statistiken wie der Mittelwert und der Median verändern. Jede Fahrt, auch die von ride_id
, sollte einzigartig sein.
dplyr
geladen ist und bike_share_rides
verfügbar ist.
Diese Übung ist Teil des Kurses
Daten in R bereinigen
Anleitung zur Übung
- Ermittelt die Gesamtzahl der vollständigen Duplikate in
bike_share_rides
. - Entferne alle vollständigen Duplikate aus
bike_share_rides
und speichere den neuen Datenrahmen alsbike_share_rides_unique.
- Ermittelt die Gesamtzahl der vollständigen Duplikate im neuen Datenrahmen
bike_share_rides_unique
.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Count the number of full duplicates
___
# Remove duplicates
bike_share_rides_unique <- ___
# Count the full duplicates in bike_share_rides_unique
___