1. Learn
  2. /
  3. कोर्स
  4. /
  5. Python में ETL और ELT

Connected

अभ्यास

Postgres डेटाबेस में लोड किए गए डेटा का वैलिडेशन

इस अभ्यास में, आप अंततः एंड-टू-एंड एक डेटा पाइपलाइन बनाएँगे। यह पाइपलाइन JSON फ़ाइल से स्कूल के टेस्ट स्कोर एक्सट्रैक्ट करेगी और जिन पंक्तियों में स्कोर गायब हैं उन्हें हटाकर डेटा ट्रांसफॉर्म करेगी। इसके अतिरिक्त, हर स्कूल को उसके कुल स्कोर के आधार पर जिस शहर में वह स्थित है, वहाँ की रैंक दी जाएगी। अंत में, ट्रांसफॉर्म किया हुआ डेटासेट एक Postgres डेटाबेस में स्टोर किया जाएगा।

शुरुआत आसान बनाने के लिए, extract() और transform() फंक्शन पहले से बनाए गए हैं और नीचे दिखाए अनुसार उपयोग किए गए हैं। इसके अलावा, pandas को pd नाम से इम्पोर्ट किया गया है। शुभकामनाएँ!

# Extract and clean the testing scores.
raw_testing_scores = extract("testing_scores.json")
cleaned_testing_scores = transform(raw_testing_scores)

निर्देश 1/2

undefined XP
    1
    2
  • load() फंक्शन को अपडेट करें ताकि वह clean_data DataFrame को schools डेटाबेस की scores_by_city टेबल में लिख दे।
  • अगर scores_by_city टेबल में पहले से डेटा मौजूद है, तो उसे अपडेटेड डेटा से अवश्य रिप्लेस करें।