ComeçarComece de graça

Uma matriz de frequência de palavras tf-idf

Neste exercício, você vai criar uma matriz de frequência de palavras tf-idf para uma coleção de documentos de brinquedos. Pra isso, usa o método “ TfidfVectorizer ” do sklearn. Transforma uma lista de documentos em uma matriz de frequência de palavras, que é gerada como uma csr_matrix. Tem métodos como fit() e transform(), como outros objetos sklearn.

Você vai ver uma lista documents com documentos fictícios sobre animais de estimação.

Este exercício faz parte do curso

Aprendizado não supervisionado em Python

Ver curso

Instruções do exercício

  • Importe TfidfVectorizer de sklearn.feature_extraction.text.
  • Crie uma instância do TfidfVectorizer chamada tfidf.
  • Aplique o método .fit_transform() de tfidf a documents e atribua o resultado a csr_mat. Essa é uma matriz de frequência de palavras no formato csr_matrix.
  • Dá uma olhada em csr_mat chamando o método .toarray() e imprimindo o resultado. Isso foi feito para você.
  • As colunas da matriz são como palavras. Pega a lista de palavras chamando o método “ .get_feature_names_out() ” de “ tfidf ” e coloca o resultado em “ words ”.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import TfidfVectorizer
from ____ import ____

# Create a TfidfVectorizer: tfidf
tfidf = ____ 

# Apply fit_transform to document: csr_mat
csr_mat = ____

# Print result of toarray() method
print(csr_mat.toarray())

# Get the words: words
words = ____

# Print words
print(words)
Editar e executar o código