1. Learn
  2. /
  3. कोर्स
  4. /
  5. Python में Unsupervised Learning

Connected

अभ्यास

Wikipedia क्लस्टरिंग भाग II

अब समय है कि आप पिछली एक्सरसाइज़ की पाइपलाइन को काम में लें! आपको कुछ लोकप्रिय Wikipedia आर्टिकल्स के tf-idf वर्ड-फ्रीक्वेंसी का एक array articles दिया गया है, और उनके टाइटल्स की एक लिस्ट titles दी गई है. अपनी पाइपलाइन का उपयोग करके इन Wikipedia आर्टिकल्स को क्लस्टर करें.

पिछली एक्सरसाइज़ का समाधान आपके लिए प्रीलोड कर दिया गया है, इसलिए TruncatedSVD और KMeans को चेन करने वाली एक Pipeline pipeline उपलब्ध है.

निर्देश

100 XP
  • pandas को pd के रूप में इम्पोर्ट करें.
  • वर्ड-फ्रीक्वेंसी array articles पर पाइपलाइन को फिट करें.
  • क्लस्टर लेबल्स प्रेडिक्ट करें.
  • आर्टिकल टाइटल्स की लिस्ट titles के साथ क्लस्टर लेबल्स को align करने के लिए labels और titles कॉलम के साथ DataFrame df बनाएँ. यह आपके लिए कर दिया गया है.
  • DataFrame को 'label' कॉलम से सॉर्ट करने के लिए df की .sort_values() मेथड का उपयोग करें, और रिज़ल्ट प्रिंट करें.
  • अब उत्तर सबमिट करें और अपने शानदार Wikipedia पेज क्लस्टरिंग को थोड़ा समय देकर देखें!