1. Learn
  2. /
  3. Courses
  4. /
  5. Очищення даних у Python

Connected

Exercise

Пошук дублікатів

Нове оновлення конвеєра даних, який постачає дані до ride_sharing, додало стовпець ride_id, що є унікальним ідентифікатором для кожної поїздки.

Однак після оновлення середня тривалість поїздок різко скоротилася, а дати народження користувачів подекуди опинилися в майбутньому. Найважливіше — кількість поїздок за ніч зросла на 20%, тож ви підозрюєте, що в датафреймі ride_sharing з’явилися як повні, так і неповні дублікати.

У цій вправі ви підтвердите цю підозру, знайшовши ці дублікати. Зразок ride_sharing уже є у вашому середовищі, як і всі пакети, з якими ви працювали раніше.

Instructions

100 XP
  • Знайдіть дубліковані рядки ride_id у датафреймі ride_sharing, встановивши keep у значення False.
  • Відібрані за маскою duplicates рядки з ride_sharing відсортуйте за ride_id і збережіть у змінній duplicated_rides.
  • Виведіть стовпці ride_id, duration і user_birth_year з duplicated_rides саме в такому порядку.