Vollständige Duplikate
Du hast die Info bekommen, dass die Bike-Sharing-Datenpipeline aktualisiert wurde, um effizienter zu sein – dafür ist es nun wahrscheinlicher, dass Duplikate entstehen. Damit du weiterhin dieselben Skripte für deine wöchentlichen Auswertungen der Fahrstatistiken nutzen kannst, musst du sicherstellen, dass alle Duplikate im Datensatz zuerst entfernt werden.
Wenn mehrere Zeilen eines Data Frames in allen Spalten dieselben Werte haben, sind sie vollständige Duplikate voneinander. Das Entfernen solcher Duplikate ist wichtig, weil mehrfach wiederholte Werte Kennzahlen wie Mittelwert und Median verfälschen können. Jede Fahrt – einschließlich ihrer ride_id – sollte eindeutig sein.
dplyr ist geladen und bike_share_rides ist verfügbar.
Diese Übung ist Teil des Kurses
Datenbereinigung in R
Anleitung zur Übung
- Ermittle die Gesamtzahl der vollständigen Duplikate in
bike_share_rides. - Entferne alle vollständigen Duplikate aus
bike_share_ridesund speichere den neuen Data Frame alsbike_share_rides_unique. - Ermittle die Gesamtzahl der vollständigen Duplikate im neuen Data Frame
bike_share_rides_unique.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Count the number of full duplicates
___
# Remove duplicates
bike_share_rides_unique <- ___
# Count the full duplicates in bike_share_rides_unique
___