ComeçarComece gratuitamente

Uma matriz de frequência de palavras tf-idf

Neste exercício, você criará uma matriz de frequência de palavras tf-idf para uma coleção de documentos de brinquedo. Para isso, use o site TfidfVectorizer do sklearn. Ele transforma uma lista de documentos em uma matriz de frequência de palavras, que é gerada como uma matriz csr_matrix. Ele tem os métodos fit() e transform() como outros objetos do sklearn.

Você recebe uma lista documents de documentos de brinquedos sobre animais de estimação.

Este exercício faz parte do curso

Aprendizado não supervisionado em Python

Ver Curso

Instruções de exercício

  • Importe TfidfVectorizer de sklearn.feature_extraction.text.
  • Crie uma instância TfidfVectorizer chamada tfidf.
  • Aplique o método .fit_transform() de tfidf a documents e atribua o resultado a csr_mat. Trata-se de uma matriz de frequência de palavras no formato csr_matrix.
  • Inspecione o site csr_mat chamando seu método .toarray() e imprimindo o resultado. Isso foi feito para você.
  • As colunas da matriz correspondem a palavras. Obtenha a lista de palavras chamando o método .get_feature_names() de tfidf e atribua o resultado a words.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Import TfidfVectorizer
from ____ import ____

# Create a TfidfVectorizer: tfidf
tfidf = ____ 

# Apply fit_transform to document: csr_mat
csr_mat = ____

# Print result of toarray() method
print(csr_mat.toarray())

# Get the words: words
words = ____

# Print words
print(words)
Editar e executar código