1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Čištění dat v Pythonu

Connected

cvičení

Hledání duplicit

Nová aktualizace datového pipeline napojená na ride_sharing přidala sloupec ride_id, který představuje jedinečný identifikátor každé jízdy.

Aktualizace ale přišla ruku v ruce s výrazně kratší průměrnou dobou jízd a neplatnými daty narození uživatelů nastavenými v budoucnosti. Nejdůležitější je, že počet zaznamenaných jízd přes noc vzrostl o 20 %, což vede k podezření, že DataFrame ride_sharing obsahuje jak úplné, tak neúplné duplicity.

V tomto cvičení toto podezření prověříš tím, že dané duplicity najdeš. V prostředí máš k dispozici vzorek dat ride_sharing a také všechny balíčky, se kterými jsi dosud pracoval/a.

Pokyny

100 XP
  • V DataFramu ride_sharing najdi duplicitní řádky sloupce ride_id a nastav parametr keep na False.
  • Filtruj ride_sharing podle duplicates, seřaď výsledky podle ride_id a ulož je do proměnné duplicated_rides.
  • Vypiš sloupce ride_id, duration a user_birth_year z duplicated_rides v tomto pořadí.