1. Learn
  2. /
  3. Cursuri
  4. /
  5. Curățarea datelor în Python

Connected

exercițiu

Găsirea duplicatelor

O actualizare recentă a pipeline-ului de date care alimentează ride_sharing a adăugat coloana ride_id, ce reprezintă un identificator unic pentru fiecare cursă.

Actualizarea a coincis însă cu durate medii ale curselor brusc mai scurte și cu date de naștere ale utilizatorilor setate în viitor. Mai important, numărul de curse a crescut cu 20% peste noapte, ceea ce te face să suspectezi că există atât duplicate complete, cât și incomplete în DataFrame-ul ride_sharing.

În acest exercițiu, vei confirma această suspiciune identificând acele duplicate. În mediul tău se află un eșantion din ride_sharing, alături de toate pachetele cu care ai lucrat până acum.

Instrucțiuni

100 XP
  • Găsește rândurile duplicate din coloana ride_id a DataFrame-ului ride_sharing, setând keep la False.
  • Filtrează ride_sharing după duplicates, sortează rezultatele după ride_id și atribuie-le variabilei duplicated_rides.
  • Afișează coloanele ride_id, duration și user_birth_year din duplicated_rides, în această ordine.