1. Learn
  2. /
  3. कोर्स
  4. /
  5. Python में डेटा क्लीनिंग

Connected

अभ्यास

कटऑफ पॉइंट

इस अभ्यास में, और पूरे अध्याय में, आप restaurants DataFrame के साथ काम करेंगे जिसमें अलग-अलग रेस्तरां का डेटा है। आपका अंतिम लक्ष्य एक रेस्तरां रिकमेंडेशन इंजन बनाना है, लेकिन उससे पहले आपको अपना डेटा साफ करना होगा.

restaurants का यह वर्ज़न कई स्रोतों से इकट्ठा किया गया है, जहाँ cuisine_type कॉलम में बहुत सारी टाइपो हैं, जबकि इसमें केवल italian, american और asian क्यूज़ीन टाइप होने चाहिए। यहाँ यूनिक कैटेगरी इतनी ज़्यादा हैं कि उन्हें मैन्युअल रीमैप करना स्केलेबल नहीं है, इसलिए स्ट्रिंग सिमिलैरिटी का इस्तेमाल करना बेहतर है.

ऐसा करने से पहले, आप thefuzz के process.extract() फंक्शन का उपयोग करके सिमिलैरिटी स्कोर का कटऑफ पॉइंट तय करना चाहते हैं, इसके लिए हर कैटेगरी की सबसे दूर की टाइपो (distant typo) का सिमिलैरिटी स्कोर ढूँढ़िए.

निर्देश 1/2

undefined XP
    1
    2
  • thefuzz से process इम्पोर्ट करें।
  • यूनिक cuisine_types को unique_types में स्टोर करें।
  • 'asian', 'american', और 'italian' की सिमिलैरिटी, सभी संभावित cuisine_types के साथ process.extract() का उपयोग करके निकालें, और सभी संभावित मैच लौटाएँ.