Aan de slagGa gratis aan de slag

Duplicaten vinden

Een nieuwe update van de datapijplijn die ride_sharing voedt, heeft de kolom ride_id toegevoegd. Deze is een unieke identificator voor elke rit.

De update viel echter samen met veel kortere gemiddelde ritduren en onregelmatige geboortedata van gebruikers die in de toekomst liggen. Het belangrijkste: het aantal gemaakte ritten is ’s nachts met 20% toegenomen, waardoor je vermoedt dat er zowel volledige als onvolledige duplicaten in de DataFrame ride_sharing zitten.

In deze oefening bevestig je dat vermoeden door die duplicaten te vinden. Een steekproef van ride_sharing staat in je omgeving, net als alle pakketten waar je tot nu toe mee hebt gewerkt.

Deze oefening maakt deel uit van de cursus

Data opschonen in Python

Cursus bekijken

Oefeninstructies

  • Zoek dubbele rijen van ride_id in de DataFrame ride_sharing en zet keep op False.
  • Subselecteer ride_sharing met duplicates, sorteer op ride_id en wijs het resultaat toe aan duplicated_rides.
  • Print de kolommen ride_id, duration en user_birth_year van duplicated_rides in die volgorde.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Find duplicates
duplicates = ____.____(____, ____)

# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')

# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])
Code bewerken en uitvoeren