Duplikate ermitteln
Ein neues Update der Datenpipeline, aus welcher Daten in ride_sharing einfließen, hat die Spalte ride_id hinzugefügt, die eine eindeutige Kennzeichnung für jede Fahrt darstellt.
Das Update fiel jedoch mit radikal kürzeren durchschnittlichen Fahrtdauern und unregelmäßigen, in der Zukunft liegenden Geburtsdaten der Nutzer zusammen. Außerdem scheint es so, dass die Anzahl der Fahrten über Nacht um 20 % gestiegen ist, was darauf schließen lässt, dass es sowohl vollständige als auch unvollständige Duplikate im DataFrame ride_sharing gibt.
In dieser Übung wirst du diesen Verdacht bestätigen, indem du diese Duplikate findest. Ein Auszug von ride_sharing ist in deiner Session vorhanden, ebenso wie alle Pakete, mit denen du bisher gearbeitet hast.
Diese Übung ist Teil des Kurses
Datenbereinigung in Python
Anleitung zur Übung
- Ermittle doppelte Zeilen von
ride_idim DataFrameride_sharingund setzekeepaufFalse. - Erstelle anhand von
duplicateseine Teilmenge vonride_sharing. Sortiere nun nachride_idund ordne die Ergebnisseduplicated_rideszu. - Gebe die Spalten
ride_id,durationunduser_birth_yearvonduplicated_ridesin dieser Reihenfolge aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Find duplicates
duplicates = ____.____(____, ____)
# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')
# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])