1. Learn
  2. /
  3. कोर्स
  4. /
  5. Python में Unsupervised Learning

Connected

अभ्यास

Wikipedia क्लस्टरिंग भाग I

आपने वीडियो में देखा कि TruncatedSVD csr_matrix फॉर्मेट वाली sparse arrays, जैसे word-frequency arrays, पर PCA कर सकता है. TruncatedSVD और k-means के अपने ज्ञान को मिलाकर Wikipedia की कुछ लोकप्रिय पेजों को क्लस्टर करें. इस अभ्यास में, पाइपलाइन बनाएँ. अगले अभ्यास में, आप इसे Wikipedia आर्टिकल्स के word-frequency array पर लागू करेंगे.

TruncatedSVD के बाद KMeans से बनी एक Pipeline ऑब्जेक्ट बनाएँ. (इस बार, हमने आपके लिए word-frequency मैट्रिक्स पहले से ही compute कर दिया है, इसलिए TfidfVectorizer की ज़रूरत नहीं है.)

जिस Wikipedia डेटासेट पर आप काम करेंगे, वह यहाँ से लिया गया है.

निर्देश

100 XP
  • इम्पोर्ट करें:
    • sklearn.decomposition से TruncatedSVD.
    • sklearn.cluster से KMeans.
    • sklearn.pipeline से make_pipeline.
  • n_components=50 के साथ svd नाम का एक TruncatedSVD इंस्टेंस बनाएँ.
  • n_clusters=6 के साथ kmeans नाम का एक KMeans इंस्टेंस बनाएँ.
  • svd और kmeans से बनी pipeline नाम की एक पाइपलाइन बनाएँ.