1. Učit se
  2. /
  3. Kurzy
  4. /
  5. ETL a ELT v Pythonu

Connected

cvičení

Validace datového pipeline v "kontrolních bodech"

V tomto cvičení budeš pracovat s datovým pipeline, který extrahuje daňová data z CSV souboru, vytváří nový sloupec, filtruje řádky podle průměrného zdanitelného příjmu a ukládá data do souboru ve formátu parquet.

pandas je načten jako pd a funkce extract(), transform() a load() jsou již definovány. Tyto funkce použiješ k ověření datového pipeline v různých kontrolních bodech průběhu jeho spuštění.

Pokyny 1/3

undefined XP
    1
    2
    3
  • Vypiš shape DataFramů raw_tax_data a clean_tax_data a sleduj rozdíl v jejich rozměrech.