LoslegenKostenlos loslegen

Vollständige Duplikate

Du hast die Info bekommen, dass die Bike-Sharing-Datenpipeline aktualisiert wurde, um effizienter zu sein – dafür ist es nun wahrscheinlicher, dass Duplikate entstehen. Damit du weiterhin dieselben Skripte für deine wöchentlichen Auswertungen der Fahrstatistiken nutzen kannst, musst du sicherstellen, dass alle Duplikate im Datensatz zuerst entfernt werden.

Wenn mehrere Zeilen eines Data Frames in allen Spalten dieselben Werte haben, sind sie vollständige Duplikate voneinander. Das Entfernen solcher Duplikate ist wichtig, weil mehrfach wiederholte Werte Kennzahlen wie Mittelwert und Median verfälschen können. Jede Fahrt – einschließlich ihrer ride_id – sollte eindeutig sein.

dplyr ist geladen und bike_share_rides ist verfügbar.

Diese Übung ist Teil des Kurses

Datenbereinigung in R

Kurs anzeigen

Anleitung zur Übung

  • Ermittle die Gesamtzahl der vollständigen Duplikate in bike_share_rides.
  • Entferne alle vollständigen Duplikate aus bike_share_rides und speichere den neuen Data Frame als bike_share_rides_unique.
  • Ermittle die Gesamtzahl der vollständigen Duplikate im neuen Data Frame bike_share_rides_unique.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Count the number of full duplicates
___

# Remove duplicates
bike_share_rides_unique <- ___

# Count the full duplicates in bike_share_rides_unique
___
Code bearbeiten und ausführen