1. Learn
  2. /
  3. कोर्स
  4. /
  5. Python में डेटा क्लीनिंग

Connected

अभ्यास

डुप्लिकेट्स खोजना

ride_sharing में फीड होने वाली डेटा पाइपलाइन के एक नए अपडेट ने ride_id कॉलम जोड़ा है, जो हर ride के लिए एक यूनिक पहचानकर्ता दर्शाता है.

हालाँकि इस अपडेट के साथ औसत ride duration बहुत कम हो गया है और कुछ उपयोगकर्ताओं के जन्म-वर्ष भविष्य में सेट दिखाई दे रहे हैं. सबसे अहम, एक रात में rides की संख्या 20% बढ़ गई है, जिससे आपको लगता है कि ride_sharing DataFrame में पूर्ण और अपूर्ण दोनों तरह के डुप्लिकेट्स हो सकते हैं.

इस अभ्यास में, आप उन डुप्लिकेट्स को ढूँढकर अपने संदेह की पुष्टि करेंगे. ride_sharing का एक sample आपके environment में उपलब्ध है, साथ ही अब तक उपयोग किए गए सभी पैकेज भी.

निर्देश

100 XP
  • ride_sharing DataFrame में ride_id की डुप्लिकेट पंक्तियाँ ढूँढिए और keep को False सेट कीजिए.
  • duplicates के आधार पर ride_sharing को सबसेट कीजिए, ride_id पर sort कीजिए, और परिणाम duplicated_rides में असाइन कीजिए.
  • duplicated_rides से ride_id, duration और user_birth_year कॉलम्स को उसी क्रम में प्रिंट कीजिए.