ComeçarComece de graça

Um array de frequência de palavras com tf-idf

Neste exercício, você vai criar um array de frequência de palavras com tf-idf para uma coleção simples de documentos. Para isso, use o TfidfVectorizer do sklearn. Ele transforma uma lista de documentos em um array de frequência de palavras, que é retornado como uma csr_matrix. Ele tem os métodos fit() e transform() como outros objetos do sklearn.

Você recebe uma lista documents de documentos simples sobre animais de estimação.

Este exercício faz parte do curso

Aprendizado não supervisionado em Python

Ver curso

Instruções do exercício

  • Importe TfidfVectorizer de sklearn.feature_extraction.text.
  • Crie uma instância de TfidfVectorizer chamada tfidf.
  • Aplique o método .fit_transform() de tfidf a documents e atribua o resultado a csr_mat. Este é um array de frequência de palavras no formato csr_matrix.
  • Inspecione csr_mat chamando seu método .toarray() e imprimindo o resultado. Isso já foi feito para você.
  • As colunas do array correspondem a palavras. Obtenha a lista de palavras chamando o método .get_feature_names_out() de tfidf e atribua o resultado a words.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import TfidfVectorizer
from ____ import ____

# Create a TfidfVectorizer: tfidf
tfidf = ____ 

# Apply fit_transform to document: csr_mat
csr_mat = ____

# Print result of toarray() method
print(csr_mat.toarray())

# Get the words: words
words = ____

# Print words
print(words)
Editar e executar o código