Găsirea duplicatelor

O actualizare recentă a pipeline-ului de date care alimentează ride_sharing a adăugat coloana ride_id, ce reprezintă un identificator unic pentru fiecare cursă.

Actualizarea a coincis însă cu durate medii ale curselor brusc mai scurte și cu date de naștere ale utilizatorilor setate în viitor. Mai important, numărul de curse a crescut cu 20% peste noapte, ceea ce te face să suspectezi că există atât duplicate complete, cât și incomplete în DataFrame-ul ride_sharing.

În acest exercițiu, vei confirma această suspiciune identificând acele duplicate. În mediul tău se află un eșantion din ride_sharing, alături de toate pachetele cu care ai lucrat până acum.

Găsește rândurile duplicate din coloana ride_id a DataFrame-ului ride_sharing, setând keep la False.
Filtrează ride_sharing după duplicates, sortează rezultatele după ride_id și atribuie-le variabilei duplicated_rides.
Afișează coloanele ride_id, duration și user_birth_year din duplicated_rides, în această ordine.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu