1. 学ぶ
  2. /
  3. コース
  4. /
  5. Čištění dat v Pythonu

Connected

演習

Ošetření duplicit

V předchozím cvičení jsi ověřil/a, že nová aktualizace přidávaná do ride_sharing obsahuje chybu, která pro některé hodnoty sloupce ride_id generuje jak kompletní, tak nekompletní duplicitní řádky – s občasnými rozdíly v hodnotách sloupců user_birth_year a duration.

V tomto cvičení se těchto duplicitních řádků zbavíš: nejprve odstraníš kompletní duplicity a poté sloučíš nekompletní duplicitní řádky do jednoho, přičemž pro každou skupinu nekompletních duplicit zachováš průměrnou hodnotu duration a minimální hodnotu user_birth_year.

指示

100 XP
  • Odstraň kompletní duplicity z ride_sharing a výsledek ulož do ride_dup.
  • Vytvoř slovník statistics, který definuje agregaci minimum pro user_birth_year a agregaci mean (průměr) pro duration.
  • Odstraň nekompletní duplicity tak, že data seskupíš podle ride_id a použiješ agregaci ze slovníku statistics.
  • Znovu vyhledej duplicity a spusť příkaz assert, který ověří, že de-duplikace proběhla správně.