ComeçarComece de graça

Aplicando TF-IDF às descrições de livros

A PyBooks coletou várias descrições de livros e quer identificar palavras importantes nelas usando a técnica de codificação TF-IDF. Com isso, eles esperam obter mais insights sobre os atributos únicos de cada livro para ajudar no sistema de recomendação.

Os seguintes pacotes já foram importados para você: torch, torchtext.

Este exercício faz parte do curso

Deep Learning para Texto com PyTorch

Ver curso

Instruções do exercício

  • Importe a classe TfidfVectorizer de sklearn.feature_extraction.text, que converte uma coleção de documentos brutos em uma matriz de recursos TF-IDF.
  • Crie uma instância dessa classe e use esse objeto para codificar descriptions em uma matriz TF-IDF de vetores.
  • Recupere e exiba os cinco primeiros nomes de recursos do vectorizer e os vetores codificados de tfidf_encoded_descriptions.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Importing TF-IDF from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TF-IDF encoding vectorizer
vectorizer = ____()
tfidf_encoded_descriptions = vectorizer.____(descriptions)

# Extract and print the first five features
print(____.get_feature_names_out()[:5])
print(____.toarray()[0, :5])
Editar e executar o código