1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Curățarea datelor în Python

Connected

Bài tập

Tratarea duplicatelor

În exercițiul anterior, ai putut verifica că noua actualizare care alimentează ride_sharing conține un bug ce generează atât rânduri duplicate complete, cât și incomplete pentru anumite valori ale coloanei ride_id, cu valori ocazional diferite pentru coloanele user_birth_year și duration.

În acest exercițiu, vei trata aceste rânduri duplicate: mai întâi vei elimina duplicatele complete, apoi vei combina rândurile duplicate incomplete într-unul singur, păstrând media duration și valoarea minimă a user_birth_year pentru fiecare set de rânduri duplicate incomplete.

Hướng dẫn

100 XP
  • Elimină duplicatele complete din ride_sharing și stochează rezultatele în ride_dup.
  • Creează dicționarul statistics, care conține agregarea minimă pentru user_birth_year și agregarea mean pentru duration.
  • Elimină duplicatele incomplete grupând după ride_id și aplicând agregarea din statistics.
  • Caută din nou duplicate și rulează instrucțiunea assert pentru a verifica eliminarea duplicatelor.