Erste SchritteKostenlos loslegen

Duplikate finden

Ein neues Update der Datenpipeline, die in ride_sharing einfließt, hat die Spalte ride_id hinzugefügt, die einen eindeutigen Bezeichner für jede Fahrt darstellt.

Das Update fiel jedoch mit radikal kürzeren durchschnittlichen Fahrtdauern und unregelmäßigen, in der Zukunft liegenden Geburtsdaten der Nutzer zusammen. Am wichtigsten ist, dass die Anzahl der Fahrten über Nacht um 20 % gestiegen ist, was darauf schließen lässt, dass es sowohl vollständige als auch unvollständige Duplikate im DataFrame ride_sharing gibt.

In dieser Übung wirst du diesen Verdacht bestätigen, indem du diese Duplikate findest. Ein Auszug von ride_sharing befindet sich in deiner Umgebung, ebenso wie alle Pakete, mit denen du bisher gearbeitet hast.

Diese Übung ist Teil des Kurses

Datenbereinigung in Python

Kurs anzeigen

Anleitung zur Übung

  • Finde doppelte Zeilen von ride_id im DataFrame ride_sharing und setze keep auf False.
  • Erstelle anhand von duplicates eine Teilmenge von ride_sharing. Sortiere nun nach ride_id und ordne die Ergebnisse duplicated_rides zu.
  • Drucke die Spalten ride_id, duration und user_birth_year aus duplicated_rides in dieser Reihenfolge aus.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Find duplicates
duplicates = ____.____(____, ____)

# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')

# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])
Bearbeiten und Ausführen von Code