Wikipedia क्लस्टरिंग भाग I

आपने वीडियो में देखा कि TruncatedSVD csr_matrix फॉर्मेट वाली sparse arrays, जैसे word-frequency arrays, पर PCA कर सकता है. TruncatedSVD और k-means के अपने ज्ञान को मिलाकर Wikipedia की कुछ लोकप्रिय पेजों को क्लस्टर करें. इस अभ्यास में, पाइपलाइन बनाएँ. अगले अभ्यास में, आप इसे Wikipedia आर्टिकल्स के word-frequency array पर लागू करेंगे.

TruncatedSVD के बाद KMeans से बनी एक Pipeline ऑब्जेक्ट बनाएँ. (इस बार, हमने आपके लिए word-frequency मैट्रिक्स पहले से ही compute कर दिया है, इसलिए TfidfVectorizer की ज़रूरत नहीं है.)

जिस Wikipedia डेटासेट पर आप काम करेंगे, वह यहाँ से लिया गया है.

इम्पोर्ट करें:
- sklearn.decomposition से TruncatedSVD.
- sklearn.cluster से KMeans.
- sklearn.pipeline से make_pipeline.
n_components=50 के साथ svd नाम का एक TruncatedSVD इंस्टेंस बनाएँ.
n_clusters=6 के साथ kmeans नाम का एक KMeans इंस्टेंस बनाएँ.
svd और kmeans से बनी pipeline नाम की एक पाइपलाइन बनाएँ.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}अभ्यास

निर्देश

अभ्यास