LoslegenKostenlos loslegen

Duplikate ermitteln

Ein neues Update der Datenpipeline, aus welcher Daten in ride_sharing einfließen, hat die Spalte ride_id hinzugefügt, die eine eindeutige Kennzeichnung für jede Fahrt darstellt.

Das Update fiel jedoch mit radikal kürzeren durchschnittlichen Fahrtdauern und unregelmäßigen, in der Zukunft liegenden Geburtsdaten der Nutzer zusammen. Außerdem scheint es so, dass die Anzahl der Fahrten über Nacht um 20 % gestiegen ist, was darauf schließen lässt, dass es sowohl vollständige als auch unvollständige Duplikate im DataFrame ride_sharing gibt.

In dieser Übung wirst du diesen Verdacht bestätigen, indem du diese Duplikate findest. Ein Auszug von ride_sharing ist in deiner Session vorhanden, ebenso wie alle Pakete, mit denen du bisher gearbeitet hast.

Diese Übung ist Teil des Kurses

Datenbereinigung in Python

Kurs anzeigen

Anleitung zur Übung

  • Ermittle doppelte Zeilen von ride_id im DataFrame ride_sharing und setze keep auf False.
  • Erstelle anhand von duplicates eine Teilmenge von ride_sharing. Sortiere nun nach ride_id und ordne die Ergebnisse duplicated_rides zu.
  • Gebe die Spalten ride_id, duration und user_birth_year von duplicated_rides in dieser Reihenfolge aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Find duplicates
duplicates = ____.____(____, ____)

# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')

# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])
Code bearbeiten und ausführen