1. Learn
  2. /
  3. Курси
  4. /
  5. ETL та ELT у Python

Connected

вправа

Тестування конвеєра даних від початку до кінця

У цій вправі ви працюватимете з тим самим конвеєром даних, що й раніше, який виконує витягування, перетворення та завантаження податкових даних. Ви потренуєтеся тестувати цей конвеєр від початку до кінця, щоб переконатися, що розв'язок можна запускати кілька разів без дублювання перетворених даних у файлі parquet.

pandas імпортовано як pd, а функції extract(), transform() і load() уже визначено.

Інструкції

100 XP
  • Запустіть ETL-конвеєр тричі, використавши цикл for.
  • Виведіть розмір clean_tax_data на кожній ітерації запуску конвеєра.
  • Зчитайте датафрейм, збережений у файлі "clean_tax_data.parquet", у змінну to_validate.
  • Виведіть розмір датафрейму to_validate, порівнявши його з розміром clean_tax_rate, щоб переконатися, що під час кожного запуску конвеєра дані не дублювалися.