1. Learn
  2. /
  3. कोर्स
  4. /
  5. Python में ETL और ELT

Connected

अभ्यास

"चेकपॉइंट्स" पर डेटा पाइपलाइन को वैलिडेट करना

इस अभ्यास में, आप एक डेटा पाइपलाइन के साथ काम करेंगे जो CSV फ़ाइल से टैक्स डेटा एक्सट्रैक्ट करती है, एक नया कॉलम बनाती है, औसत टैक्सेबल इनकम के आधार पर पंक्तियों को फ़िल्टर करती है, और डेटा को एक parquet फ़ाइल में पर्सिस्ट करती है.

pandas को pd नाम से लोड किया गया है, और extract(), transform(), और load() फंक्शन पहले से परिभाषित हैं. आप इन फंक्शनों का उपयोग पाइपलाइन के निष्पादन के दौरान अलग-अलग चेकपॉइंट्स पर डेटा को वैलिडेट करने के लिए करेंगे.

निर्देश 1/3

undefined XP
    1
    2
    3
  • raw_tax_data और clean_tax_data DataFrames का shape प्रिंट करें और डायमेंशन्स में अंतर देखें.