tf-idf शब्द-फ्रिक्वेंसी ऐरे

इस अभ्यास में, आप दस्तावेज़ों के एक छोटे (toy) कलेक्शन के लिए tf-idf शब्द-फ्रिक्वेंसी ऐरे बनाएँगे. इसके लिए sklearn का TfidfVectorizer उपयोग करें. यह दस्तावेज़ों की सूची को शब्द-फ्रिक्वेंसी ऐरे में बदलता है और आउटपुट के रूप में csr_matrix देता है. इसके पास अन्य sklearn ऑब्जेक्ट्स की तरह fit() और transform() मेथड होते हैं.

आपको पालतू जानवरों पर आधारित toy दस्तावेज़ों की एक सूची documents दी गई है.

sklearn.feature_extraction.text से TfidfVectorizer इम्पोर्ट करें.
tfidf नाम का एक TfidfVectorizer इंस्टेंस बनाएँ.
tfidf के .fit_transform() मेथड को documents पर लागू करें और परिणाम csr_mat में असाइन करें. यह csr_matrix फॉर्मेट में शब्द-फ्रिक्वेंसी ऐरे है.
.toarray() मेथड कॉल करके और परिणाम प्रिंट करके csr_mat देखें. यह आपके लिए कर दिया गया है.
ऐरे के कॉलम अलग-अलग शब्दों से मेल खाते हैं. शब्दों की सूची पाने के लिए tfidf के .get_feature_names_out() मेथड को कॉल करें और परिणाम words में असाइन करें.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}अभ्यास

निर्देश

अभ्यास