1. Learn
  2. /
  3. कोर्स
  4. /
  5. Python में डेटा क्लीनिंग

Connected

अभ्यास

सबको जोड़कर लिंक करें!

पिछले लेसन में, आपने restaurants और restaurants_new को लिंक करने के अपने काम का बड़ा हिस्सा पूरा कर लिया था. आपने संभावित मिलान वाली पंक्तियों के अलग-अलग pair बनाए, cuisine_type और city कॉलम में exact matches ढूँढे, और rest_name कॉलम में similar strings की तुलना की. स्कोर वाला DataFrame आपने potential_matches में सेव किया था.

अब आखिरकार दोनों DataFrames को लिंक करने का समय है. सबसे पहले आप potential_matches से ऊपर बताए गए कॉलमों में मिलान हो रही restaurants_new की सभी row indices निकालेंगे. फिर आप इन्हीं indices पर restaurants_new को subset करेंगे, और अंत में non-duplicate मानों को restaurants के साथ concatenate करेंगे. सभी DataFrames आपके environment में हैं, और pandas को pd नाम से इम्पोर्ट किया गया है.

निर्देश

100 XP
  • .sum() मेथड का उपयोग करके potential_matches के वे इंस्टेंस अलग कीजिए जिनका row sum 3 से अधिक या बराबर हो.
  • .get_level_values() मेथड का उपयोग करके matches से दूसरा कॉलम इंडेक्स निकालिए, जो restaurants_new में matching record की row indices दर्शाता है.
  • restaurants_new को उन पंक्तियों के लिए subset कीजिए जो matching_indices में नहीं हैं.
  • restaurants और non_dup को concatenate कीजिए.