Bag-of-words para títulos de livros

A PyBooks agora tem uma lista de títulos de livros que precisam ser codificados para análises posteriores. A equipe de dados acredita que o modelo Bag of Words (BoW) pode ser a melhor abordagem.

Os seguintes pacotes já foram importados para você: torch, torchtext.

Este exercício faz parte do curso

Deep Learning para Texto com PyTorch

Ver curso

Instruções do exercício

Importe a classe CountVectorizer para implementar o bag-of-words.
Inicialize um objeto da classe que você importou e, em seguida, use esse objeto para transformar titles em uma representação matricial.
Extraia e exiba os cinco primeiros nomes de features e os títulos codificados com o método get_feature_names_out().

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import from sklearn
from sklearn.feature_extraction.text import ____

titles = ['The Great Gatsby','To Kill a Mockingbird','1984','The Catcher in the Rye','The Hobbit', 'Great Expectations']

# Initialize Bag-of-words with the list of book titles
vectorizer = ____()
bow_encoded_titles = ____.fit_transform(____)

# Extract and print the first five features
print(vectorizer.____[:5])
print(bow_encoded_titles.toarray()[0, :5])

Editar e executar o código