1. Learn
  2. /
  3. कोर्स
  4. /
  5. Python में डेटा क्लीनिंग

Connected

अभ्यास

डुप्लिकेट्स का उपचार

पिछले अभ्यास में आपने जाँचा था कि ride_sharing में आने वाला नया अपडेट एक बग के कारण कुछ ride_id मूल्यों के लिए पूरी तरह और आंशिक, दोनों तरह की डुप्लिकेट पंक्तियाँ बना रहा है, और कभी-कभी user_birth_year और duration कॉलम में असंगत मान भी दिख रहे हैं.

इस अभ्यास में, आप पहले पूरी तरह डुप्लिकेट पंक्तियाँ हटाएँगे, और फिर आंशिक डुप्लिकेट पंक्तियों को एक में मर्ज करेंगे, जबकि प्रत्येक आंशिक-डुप्लिकेट सेट के लिए duration का औसत और user_birth_year का न्यूनतम मान रखेंगे.

निर्देश

100 XP
  • ride_sharing में पूरी तरह डुप्लिकेट्स हटाकर परिणाम ride_dup में रखें।
  • statistics डिक्शनरी बनाएँ, जिसमें user_birth_year के लिए min (न्यूनतम) और duration के लिए mean (औसत) एग्रीगेशन हो।
  • ride_id के आधार पर group करके statistics में दिए एग्रीगेशन को लागू करके आंशिक डुप्लिकेट्स हटाएँ।
  • डुप्लिकेट्स दोबारा खोजें और de-duplication सत्यापित करने के लिए assert स्टेटमेंट चलाएँ।