1. Learn
  2. /
  3. कोर्स
  4. /
  5. Python में Unsupervised Learning

Connected

अभ्यास

tf-idf शब्द-फ्रिक्वेंसी ऐरे

इस अभ्यास में, आप दस्तावेज़ों के एक छोटे (toy) कलेक्शन के लिए tf-idf शब्द-फ्रिक्वेंसी ऐरे बनाएँगे. इसके लिए sklearn का TfidfVectorizer उपयोग करें. यह दस्तावेज़ों की सूची को शब्द-फ्रिक्वेंसी ऐरे में बदलता है और आउटपुट के रूप में csr_matrix देता है. इसके पास अन्य sklearn ऑब्जेक्ट्स की तरह fit() और transform() मेथड होते हैं.

आपको पालतू जानवरों पर आधारित toy दस्तावेज़ों की एक सूची documents दी गई है.

निर्देश

100 XP
  • sklearn.feature_extraction.text से TfidfVectorizer इम्पोर्ट करें.
  • tfidf नाम का एक TfidfVectorizer इंस्टेंस बनाएँ.
  • tfidf के .fit_transform() मेथड को documents पर लागू करें और परिणाम csr_mat में असाइन करें. यह csr_matrix फॉर्मेट में शब्द-फ्रिक्वेंसी ऐरे है.
  • .toarray() मेथड कॉल करके और परिणाम प्रिंट करके csr_mat देखें. यह आपके लिए कर दिया गया है.
  • ऐरे के कॉलम अलग-अलग शब्दों से मेल खाते हैं. शब्दों की सूची पाने के लिए tfidf के .get_feature_names_out() मेथड को कॉल करें और परिणाम words में असाइन करें.