1. Обучение
  2. /
  3. Курса
  4. /
  5. Python में ETL और ELT

Connected

упражнение

डेटा पाइपलाइन का एंड-टू-एंड टेस्टिंग

इस अभ्यास में, आप पहले वाली ही डेटा पाइपलाइन के साथ काम करेंगे, जो टैक्स डेटा को extract, transform, और load करती है. आप इस पाइपलाइन का एंड-टू-एंड टेस्ट करना अभ्यास करेंगे ताकि यह सुनिश्चित हो कि समाधान कई बार चलाया जा सके, और parquet फ़ाइल में transformed डेटा डुप्लिकेट न हो.

pandas को pd के रूप में लोड किया गया है, और extract(), transform(), और load() फंक्शन्स पहले से परिभाषित हैं.

Инструкции

100 XP
  • for-loop का उपयोग करके ETL पाइपलाइन को तीन बार चलाएँ.
  • पाइपलाइन रन की हर iteration में clean_tax_data का shape प्रिंट करें.
  • "clean_tax_data.parquet" फ़ाइल में स्टोर DataFrame को पढ़कर to_validate वैरिएबल में लाएँ.
  • to_validate DataFrame का shape आउटपुट करें, और उसे clean_tax_rate के shape से तुलना करें ताकि सुनिश्चित हो कि हर पाइपलाइन रन पर डेटा डुप्लिकेट नहीं हुआ.