Um array de frequência de palavras com tf-idf
Neste exercício, você vai criar um array de frequência de palavras com tf-idf para uma coleção simples de documentos. Para isso, use o TfidfVectorizer do sklearn. Ele transforma uma lista de documentos em um array de frequência de palavras, que é retornado como uma csr_matrix. Ele tem os métodos fit() e transform() como outros objetos do sklearn.
Você recebe uma lista documents de documentos simples sobre animais de estimação.
Este exercício faz parte do curso
Unsupervised Learning em Python
Instruções do exercício
- Importe
TfidfVectorizerdesklearn.feature_extraction.text. - Crie uma instância de
TfidfVectorizerchamadatfidf. - Aplique o método
.fit_transform()detfidfadocumentse atribua o resultado acsr_mat. Este é um array de frequência de palavras no formato csr_matrix. - Inspecione
csr_matchamando seu método.toarray()e imprimindo o resultado. Isso já foi feito para você. - As colunas do array correspondem a palavras. Obtenha a lista de palavras chamando o método
.get_feature_names_out()detfidfe atribua o resultado awords.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import TfidfVectorizer
from ____ import ____
# Create a TfidfVectorizer: tfidf
tfidf = ____
# Apply fit_transform to document: csr_mat
csr_mat = ____
# Print result of toarray() method
print(csr_mat.toarray())
# Get the words: words
words = ____
# Print words
print(words)