1. Učit se
  2. /
  3. Kurzy
  4. /
  5. ETL a ELT v Pythonu

Connected

cvičení

Testování datového pipeline od začátku do konce

V tomto cvičení budeš pracovat se stejným datovým pipeline jako předtím – extrahuje, transformuje a načítá daňová data. Procvičíš si testování celého pipeline od začátku do konce, abys ověřil/a, že ho lze spustit opakovaně, aniž by docházelo ke zdvojování transformovaných dat v parquet souboru.

pandas je načten jako pd a funkce extract(), transform() a load() jsou již definovány.

Pokyny

100 XP
  • Spusť ETL pipeline třikrát pomocí cyklu for.
  • V každé iteraci spuštění pipeline vypiš tvar clean_tax_data.
  • Načti DataFrame uložený v souboru "clean_tax_data.parquet" do proměnné to_validate.
  • Vypiš tvar DataFrame to_validate a porovnej ho s tvarem clean_tax_rate, abys ověřil/a, že při každém spuštění pipeline nedošlo ke zdvojování dat.