1. Nauka
  2. /
  3. Kursy
  4. /
  5. ETL i ELT w Pythonie

Connected

ćwiczenie

Kompleksowe testowanie potoku danych

W tym ćwiczeniu będziesz pracować z tym samym potokiem danych co wcześniej – wyodrębnia on, przekształca i ładuje dane podatkowe. Przećwiczysz kompleksowe testowanie tego potoku, aby upewnić się, że można go uruchamiać wielokrotnie bez duplikowania przekształconych danych w pliku parquet.

pandas jest załadowany jako pd, a funkcje extract(), transform() i load() zostały już zdefiniowane.

Instrukcje

100 XP
  • Uruchom potok ETL trzykrotnie, korzystając z pętli for.
  • Wyświetl kształt clean_tax_data w każdej iteracji uruchomienia potoku.
  • Wczytaj DataFrame zapisany w pliku "clean_tax_data.parquet" do zmiennej to_validate.
  • Wyświetl kształt DataFrame to_validate i porównaj go z kształtem clean_tax_rate, aby upewnić się, że dane nie zostały zduplikowane podczas kolejnych uruchomień potoku.