1. Nauka
  2. /
  3. Kursy
  4. /
  5. ETL i ELT w Pythonie

Connected

ćwiczenie

Walidacja potoku danych w „punktach kontrolnych"

W tym ćwiczeniu będziesz pracować z potokiem danych, który wyodrębnia dane podatkowe z pliku CSV, tworzy nową kolumnę, filtruje wiersze na podstawie średniego dochodu podlegającego opodatkowaniu i zapisuje dane do pliku parquet.

Biblioteka pandas została załadowana jako pd, a funkcje extract(), transform() i load() są już zdefiniowane. Użyjesz ich do walidacji potoku danych w różnych punktach kontrolnych podczas jego wykonywania.

Instrukcje 1/3

undefined XP
    1
    2
    3
  • Wyświetl kształt obiektów DataFrame raw_tax_data i clean_tax_data i zaobserwuj różnicę w wymiarach.