Aplicando TF-IDF às descrições de livros
A PyBooks coletou várias descrições de livros e quer identificar palavras importantes nelas usando a técnica de codificação TF-IDF. Com isso, eles esperam obter mais insights sobre os atributos únicos de cada livro para ajudar no sistema de recomendação.
Os seguintes pacotes já foram importados para você: torch, torchtext.
Este exercício faz parte do curso
Deep Learning para Texto com PyTorch
Instruções do exercício
- Importe a classe
TfidfVectorizerdesklearn.feature_extraction.text, que converte uma coleção de documentos brutos em uma matriz de recursos TF-IDF. - Crie uma instância dessa classe e use esse objeto para codificar
descriptionsem uma matriz TF-IDF de vetores. - Recupere e exiba os cinco primeiros nomes de recursos do
vectorizere os vetores codificados detfidf_encoded_descriptions.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Importing TF-IDF from sklearn
from sklearn.feature_extraction.text import ____
# Initialize TF-IDF encoding vectorizer
vectorizer = ____()
tfidf_encoded_descriptions = vectorizer.____(descriptions)
# Extract and print the first five features
print(____.get_feature_names_out()[:5])
print(____.toarray()[0, :5])