Erste SchritteKostenlos loslegen

Vollständige Duplikate

Du wurdest darüber informiert, dass die Bikesharing-Datenpipeline aktualisiert wurde, um sie effizienter zu machen, aber dass dadurch wahrscheinlich mehr Duplikate entstehen. Um sicherzustellen, dass du weiterhin dieselben Skripte für deine wöchentlichen Analysen der Fahrstatistiken verwenden kannst, musst du zunächst sicherstellen, dass alle Duplikate im Datensatz entfernt werden.

Wenn mehrere Zeilen eines Datenrahmens für alle Spalten die gleichen Werte haben, sind sie vollständige Duplikate voneinander. Das Entfernen solcher Duplikate ist wichtig, denn wenn derselbe Wert mehrmals wiederholt wird, können sich zusammenfassende Statistiken wie der Mittelwert und der Median verändern. Jede Fahrt, auch die von ride_id, sollte einzigartig sein.

dplyr geladen ist und bike_share_rides verfügbar ist.

Diese Übung ist Teil des Kurses

Daten in R bereinigen

Kurs anzeigen

Anleitung zur Übung

  • Ermittelt die Gesamtzahl der vollständigen Duplikate in bike_share_rides.
  • Entferne alle vollständigen Duplikate aus bike_share_rides und speichere den neuen Datenrahmen als bike_share_rides_unique.
  • Ermittelt die Gesamtzahl der vollständigen Duplikate im neuen Datenrahmen bike_share_rides_unique.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Count the number of full duplicates
___

# Remove duplicates
bike_share_rides_unique <- ___

# Count the full duplicates in bike_share_rides_unique
___
Bearbeiten und Ausführen von Code