Пошук дублікатів

Нове оновлення конвеєра даних, який постачає дані до ride_sharing, додало стовпець ride_id, що є унікальним ідентифікатором для кожної поїздки.

Однак після оновлення середня тривалість поїздок різко скоротилася, а дати народження користувачів подекуди опинилися в майбутньому. Найважливіше — кількість поїздок за ніч зросла на 20%, тож ви підозрюєте, що в датафреймі ride_sharing з’явилися як повні, так і неповні дублікати.

У цій вправі ви підтвердите цю підозру, знайшовши ці дублікати. Зразок ride_sharing уже є у вашому середовищі, як і всі пакети, з якими ви працювали раніше.

Знайдіть дубліковані рядки ride_id у датафреймі ride_sharing, встановивши keep у значення False.
Відібрані за маскою duplicates рядки з ride_sharing відсортуйте за ride_id і збережіть у змінній duplicated_rides.
Виведіть стовпці ride_id, duration і user_birth_year з duplicated_rides саме в такому порядку.

вправа

Пошук дублікатів

Інструкції

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}вправа

Інструкції

вправа