1. Learn
  2. /
  3. Kurser
  4. /
  5. Python में डेटा क्लीनिंग

Connected

övning

रेस्तरां की जोड़ी (Pairs)

पिछले लेसन में, आपने restaurants डेटासेट को साफ किया था ताकि इसे एक रेस्टोरेंट रिकमेंडेशन इंजन बनाने के लिए तैयार किया जा सके। आपके पास अब restaurants_new नाम का नया DataFrame है, जिसमें नए रेस्टोरेंट हैं जिन पर आप अपने मॉडल को ट्रेन करेंगे, और जिसे एक नए डेटा सोर्स से स्क्रैप किया गया है.

आपने इस कोर्स में सीखी गई तकनीकों से cuisine_type और city कॉलम पहले ही साफ कर लिए हैं। लेकिन आपने रेस्टोरेंट नामों में टाइपो के साथ डुप्लिकेट देखे, जिनके लिए restaurants पर साधारण join की बजाय रिकॉर्ड लिंकेज की ज़रूरत है.

इस अभ्यास में, आप रिकॉर्ड लिंकेज का पहला कदम करेंगे और restaurants और restaurants_new के बीच संभावित पंक्ति-जोड़े (pairs) जनरेट करेंगे। दोनों DataFrames, साथ ही pandas और recordlinkage, आपके एनवायरनमेंट में उपलब्ध हैं.

Instruktioner 1/2

undefined XP
    1
    2
  • recordlinkage की Index() फंक्शन का उपयोग करके एक indexing ऑब्जेक्ट instantiate कीजिए.
  • indexer की .block() मेथड से cuisine_type पर ब्लॉकिंग कीजिए.
  • उसी क्रम में restaurants और फिर restaurants_new को इंडेक्स करके pairs जनरेट कीजिए.