डुप्लिकेट्स का उपचार

पिछले अभ्यास में आपने जाँचा था कि ride_sharing में आने वाला नया अपडेट एक बग के कारण कुछ ride_id मूल्यों के लिए पूरी तरह और आंशिक, दोनों तरह की डुप्लिकेट पंक्तियाँ बना रहा है, और कभी-कभी user_birth_year और duration कॉलम में असंगत मान भी दिख रहे हैं.

इस अभ्यास में, आप पहले पूरी तरह डुप्लिकेट पंक्तियाँ हटाएँगे, और फिर आंशिक डुप्लिकेट पंक्तियों को एक में मर्ज करेंगे, जबकि प्रत्येक आंशिक-डुप्लिकेट सेट के लिए duration का औसत और user_birth_year का न्यूनतम मान रखेंगे.

ride_sharing में पूरी तरह डुप्लिकेट्स हटाकर परिणाम ride_dup में रखें।
statistics डिक्शनरी बनाएँ, जिसमें user_birth_year के लिए min (न्यूनतम) और duration के लिए mean (औसत) एग्रीगेशन हो।
ride_id के आधार पर group करके statistics में दिए एग्रीगेशन को लागू करके आंशिक डुप्लिकेट्स हटाएँ।
डुप्लिकेट्स दोबारा खोजें और de-duplication सत्यापित करने के लिए assert स्टेटमेंट चलाएँ।

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}अभ्यास

निर्देश

अभ्यास