Wikipedia क्लस्टरिंग भाग II

अब समय है कि आप पिछली एक्सरसाइज़ की पाइपलाइन को काम में लें! आपको कुछ लोकप्रिय Wikipedia आर्टिकल्स के tf-idf वर्ड-फ्रीक्वेंसी का एक array articles दिया गया है, और उनके टाइटल्स की एक लिस्ट titles दी गई है. अपनी पाइपलाइन का उपयोग करके इन Wikipedia आर्टिकल्स को क्लस्टर करें.

पिछली एक्सरसाइज़ का समाधान आपके लिए प्रीलोड कर दिया गया है, इसलिए TruncatedSVD और KMeans को चेन करने वाली एक Pipeline pipeline उपलब्ध है.

pandas को pd के रूप में इम्पोर्ट करें.
वर्ड-फ्रीक्वेंसी array articles पर पाइपलाइन को फिट करें.
क्लस्टर लेबल्स प्रेडिक्ट करें.
आर्टिकल टाइटल्स की लिस्ट titles के साथ क्लस्टर लेबल्स को align करने के लिए labels और titles कॉलम के साथ DataFrame df बनाएँ. यह आपके लिए कर दिया गया है.
DataFrame को 'label' कॉलम से सॉर्ट करने के लिए df की .sort_values() मेथड का उपयोग करें, और रिज़ल्ट प्रिंट करें.
अब उत्तर सबमिट करें और अपने शानदार Wikipedia पेज क्लस्टरिंग को थोड़ा समय देकर देखें!

अभ्यास

Wikipedia क्लस्टरिंग भाग II

निर्देश

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}अभ्यास

निर्देश

अभ्यास