Duplicaten vinden
Een nieuwe update van de datapijplijn die ride_sharing voedt, heeft de kolom ride_id toegevoegd. Deze is een unieke identificator voor elke rit.
De update viel echter samen met veel kortere gemiddelde ritduren en onregelmatige geboortedata van gebruikers die in de toekomst liggen. Het belangrijkste: het aantal gemaakte ritten is ’s nachts met 20% toegenomen, waardoor je vermoedt dat er zowel volledige als onvolledige duplicaten in de DataFrame ride_sharing zitten.
In deze oefening bevestig je dat vermoeden door die duplicaten te vinden. Een steekproef van ride_sharing staat in je omgeving, net als alle pakketten waar je tot nu toe mee hebt gewerkt.
Deze oefening maakt deel uit van de cursus
Data opschonen in Python
Oefeninstructies
- Zoek dubbele rijen van
ride_idin de DataFrameride_sharingen zetkeepopFalse. - Subselecteer
ride_sharingmetduplicates, sorteer opride_iden wijs het resultaat toe aanduplicated_rides. - Print de kolommen
ride_id,durationenuser_birth_yearvanduplicated_ridesin die volgorde.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Find duplicates
duplicates = ____.____(____, ____)
# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')
# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])