1. Learn
  2. /
  3. कोर्स
  4. /
  5. Обучение без учителя на Python

Connected

अभ्यास

Массив частот слов tf-idf

В этом упражнении вы создадите массив частот слов tf-idf для небольшой коллекции документов. Для этого используйте TfidfVectorizer из библиотеки sklearn. Он преобразует список документов в массив частот слов, который возвращается в формате csr_matrix. Как и другие объекты sklearn, он поддерживает методы fit() и transform().

Вам дан список documents, содержащий тестовые документы о домашних животных.

निर्देश

100 XP
  • Импортируйте TfidfVectorizer из sklearn.feature_extraction.text.
  • Создайте экземпляр TfidfVectorizer с именем tfidf.
  • Примените метод .fit_transform() объекта tfidf к documents и сохраните результат в переменную csr_mat. Это массив частот слов в формате csr_matrix.
  • Изучите содержимое csr_mat, вызвав его метод .toarray() и выведя результат на экран. Этот шаг уже выполнен за вас.
  • Столбцы массива соответствуют словам. Получите список слов, вызвав метод .get_feature_names_out() объекта tfidf, и сохраните результат в переменную words.