1. Learn
  2. /
  3. Courses
  4. /
  5. Cleaning Data with PySpark

Connected

Exercise

Odstranění řádků s komentáři

Tvůj nadřízený by rád, abys provedl/a složitější parsování nové datové sady. Data obsahují anotace pro datovou sadu ImageNet, konkrétně zaměřené na psí plemena a jejich rozpoznávání na snímcích. Než bude možné provést jakoukoli analýzu, je potřeba vyčistit několik typů neplatných nebo chybných dat. Celkové schéma dokumentu není známé, takže řádky naimportuješ do jediného sloupce, což umožní rychlou analýzu.

Nejdřív je potřeba odstranit všechny řádky s komentáři.

K dispozici máš kontext spark a základní CSV soubor (annotations.csv.gz). Funkce col je také připravena k použití.

Instructions

100 XP
  • Naimportuj soubor annotations.csv.gz do DataFrame a zjisti počet řádků. Jako oddělovač zadej znak |.
  • Zjisti, kolik řádků začíná znakem #.
  • Naimportuj soubor znovu do nového DataFrame, tentokrát v možnostech zadej znak komentáře, aby se komentované řádky odstranily.
  • Spočítej řádky nového DataFrame a ověř, že rozdíl odpovídá očekávání.