Hledání duplicit

Nová aktualizace datového pipeline napojená na ride_sharing přidala sloupec ride_id, který představuje jedinečný identifikátor každé jízdy.

Aktualizace ale přišla ruku v ruce s výrazně kratší průměrnou dobou jízd a neplatnými daty narození uživatelů nastavenými v budoucnosti. Nejdůležitější je, že počet zaznamenaných jízd přes noc vzrostl o 20 %, což vede k podezření, že DataFrame ride_sharing obsahuje jak úplné, tak neúplné duplicity.

V tomto cvičení toto podezření prověříš tím, že dané duplicity najdeš. V prostředí máš k dispozici vzorek dat ride_sharing a také všechny balíčky, se kterými jsi dosud pracoval/a.

V DataFramu ride_sharing najdi duplicitní řádky sloupce ride_id a nastav parametr keep na False.
Filtruj ride_sharing podle duplicates, seřaď výsledky podle ride_id a ulož je do proměnné duplicated_rides.
Vypiš sloupce ride_id, duration a user_birth_year z duplicated_rides v tomto pořadí.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení