1. Learn
  2. /
  3. कोर्स
  4. /
  5. Python में ETL और ELT

Connected

अभ्यास

pandas DataFrames को फ़िल्टर करना

जैसे ही डेटा किसी सोर्स सिस्टम से एक्सट्रैक्ट हो जाता है, उसे ट्रांसफॉर्म करने का समय होता है! अक्सर सोर्स डेटा में डाउनस्ट्रीम उपयोग के लिए ज़रूरत से ज़्यादा जानकारी होती है. ऐसे में डेटा पाइपलाइन के "transform" फेज़ के दौरान डायमेंशनैलिटी कम की जानी चाहिए.

pandas को pd के रूप में इम्पोर्ट किया गया है, और extract() फंक्शन उपलब्ध है जो पास किए गए पाथ से DataFrame लोड करता है.

निर्देश

100 XP
  • extract() फंक्शन का उपयोग करके "sales_data.parquet" पाथ में स्टोर किया गया DataFrame लोड करें.
  • transform() फंक्शन को अपडेट करें ताकि वह उन सभी पंक्तियों और कॉलम्स को रिटर्न करे जिनमें "Quantity Ordered" 1 से अधिक हो.
  • आगे clean_data DataFrame को फ़िल्टर करें ताकि केवल "Order Date", "Quantity Ordered" और "Purchase Address" कॉलम शामिल हों.
  • फ़िल्टर किया हुआ DataFrame रिटर्न करें.