Оброблення дублікатів

У попередній вправі ви перевірили, що нове оновлення, яке надходить у ride_sharing, містить помилку, що генерує як повні, так і неповні дубльовані рядки для деяких значень стовпця ride_id, інколи з розбіжними значеннями у стовпцях user_birth_year і duration.

У цій вправі ви оброблятимете ці дубльовані рядки: спочатку видалите повні дублікати, а потім об’єднаєте неповні дублікати в один рядок, зберігши середнє значення duration і мінімальне значення user_birth_year для кожного набору неповних дублікатів.

Видаліть повні дублікати в ride_sharing і збережіть результат у ride_dup.
Створіть словник statistics, який міститиме агрегацію min для user_birth_year і агрегацію mean для duration.
Видаліть неповні дублікати, згрупувавши за ride_id і застосувавши агрегації зі statistics.
Знову знайдіть дублікати й виконайте оператор assert, щоб перевірити, що дублікати усунено.

연습 문제

Оброблення дублікатів

지침

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제