कटऑफ पॉइंट

इस अभ्यास में, और पूरे अध्याय में, आप restaurants DataFrame के साथ काम करेंगे जिसमें अलग-अलग रेस्तरां का डेटा है। आपका अंतिम लक्ष्य एक रेस्तरां रिकमेंडेशन इंजन बनाना है, लेकिन उससे पहले आपको अपना डेटा साफ करना होगा.

restaurants का यह वर्ज़न कई स्रोतों से इकट्ठा किया गया है, जहाँ cuisine_type कॉलम में बहुत सारी टाइपो हैं, जबकि इसमें केवल italian, american और asian क्यूज़ीन टाइप होने चाहिए। यहाँ यूनिक कैटेगरी इतनी ज़्यादा हैं कि उन्हें मैन्युअल रीमैप करना स्केलेबल नहीं है, इसलिए स्ट्रिंग सिमिलैरिटी का इस्तेमाल करना बेहतर है.

ऐसा करने से पहले, आप thefuzz के process.extract() फंक्शन का उपयोग करके सिमिलैरिटी स्कोर का कटऑफ पॉइंट तय करना चाहते हैं, इसके लिए हर कैटेगरी की सबसे दूर की टाइपो (distant typo) का सिमिलैरिटी स्कोर ढूँढ़िए.

thefuzz से process इम्पोर्ट करें।
यूनिक cuisine_types को unique_types में स्टोर करें।
'asian', 'american', और 'italian' की सिमिलैरिटी, सभी संभावित cuisine_types के साथ process.extract() का उपयोग करके निकालें, और सभी संभावित मैच लौटाएँ.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}अभ्यास

निर्देश 1/2

अभ्यास