1. सीखें
  2. /
  3. पाठ्यक्रम
  4. /
  5. Очищення даних у Python

Connected

अभ्यास

Оброблення дублікатів

У попередній вправі ви перевірили, що нове оновлення, яке надходить у ride_sharing, містить помилку, що генерує як повні, так і неповні дубльовані рядки для деяких значень стовпця ride_id, інколи з розбіжними значеннями у стовпцях user_birth_year і duration.

У цій вправі ви оброблятимете ці дубльовані рядки: спочатку видалите повні дублікати, а потім об’єднаєте неповні дублікати в один рядок, зберігши середнє значення duration і мінімальне значення user_birth_year для кожного набору неповних дублікатів.

निर्देश

100 XP
  • Видаліть повні дублікати в ride_sharing і збережіть результат у ride_dup.
  • Створіть словник statistics, який міститиме агрегацію min для user_birth_year і агрегацію mean для duration.
  • Видаліть неповні дублікати, згрупувавши за ride_id і застосувавши агрегації зі statistics.
  • Знову знайдіть дублікати й виконайте оператор assert, щоб перевірити, що дублікати усунено.