Duplikate finden
Ein neues Update der Datenpipeline, die in ride_sharing
einfließt, hat die Spalte ride_id
hinzugefügt, die einen eindeutigen Bezeichner für jede Fahrt darstellt.
Das Update fiel jedoch mit radikal kürzeren durchschnittlichen Fahrtdauern und unregelmäßigen, in der Zukunft liegenden Geburtsdaten der Nutzer zusammen. Am wichtigsten ist, dass die Anzahl der Fahrten über Nacht um 20 % gestiegen ist, was darauf schließen lässt, dass es sowohl vollständige als auch unvollständige Duplikate im DataFrame ride_sharing
gibt.
In dieser Übung wirst du diesen Verdacht bestätigen, indem du diese Duplikate findest. Ein Auszug von ride_sharing
befindet sich in deiner Umgebung, ebenso wie alle Pakete, mit denen du bisher gearbeitet hast.
Diese Übung ist Teil des Kurses
Datenbereinigung in Python
Anleitung zur Übung
- Finde doppelte Zeilen von
ride_id
im DataFrameride_sharing
und setzekeep
aufFalse
. - Erstelle anhand von
duplicates
eine Teilmenge vonride_sharing
. Sortiere nun nachride_id
und ordne die Ergebnisseduplicated_rides
zu. - Drucke die Spalten
ride_id
,duration
unduser_birth_year
ausduplicated_rides
in dieser Reihenfolge aus.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Find duplicates
duplicates = ____.____(____, ____)
# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')
# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])