1. Learn
  2. /
  3. Курси
  4. /
  5. Наглядове навчання в Python

Connected

вправа

Масив частот слів tf-idf

У цій вправі ви створите масив частот слів tf-idf для невеликої колекції документів. Для цього скористайтеся TfidfVectorizer зі sklearn. Він перетворює список документів на масив частот слів і повертає його як csr_matrix. Обʼєкт має методи fit() і transform(), як і інші обʼєкти sklearn.

Вам надано список documents з прикладними документами про домашніх улюбленців.

Інструкції

100 XP
  • Імпортуйте TfidfVectorizer з sklearn.feature_extraction.text.
  • Створіть екземпляр TfidfVectorizer з назвою tfidf.
  • Застосуйте метод .fit_transform() обʼєкта tfidf до documents і запишіть результат у csr_mat. Це масив частот слів у форматі csr_matrix.
  • Перегляньте csr_mat, викликавши його метод .toarray() і вивівши результат. Це зроблено для вас.
  • Стовпці масиву відповідають словам. Отримайте список слів, викликавши метод .get_feature_names_out() обʼєкта tfidf, і запишіть результат у words.