Construindo um Counter com bag-of-words
Neste exercício, você vai construir seu primeiro (neste curso) contador bag-of-words usando um artigo da Wikipedia, que já foi carregado como article. Tente fazer o bag-of-words sem olhar o texto completo do artigo e adivinhar qual é o tópico! Se quiser dar uma espiada no título ao final, incluímos ele como article_title. Observe que este texto do artigo teve pouquíssimo pré-processamento a partir da entrada bruta do banco de dados da Wikipedia.
word_tokenize já foi importado para você.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em Python
Instruções do exercício
- Importe
Counterdecollections. - Use
word_tokenize()para dividir o artigo em tokens. - Use uma list comprehension com
tcomo variável iteradora para converter todos os tokens em minúsculas. O método.lower()converte texto para letras minúsculas. - Crie um contador bag-of-words chamado
bow_simpleusandoCounter()comlower_tokenscomo argumento. - Use o método
.most_common()debow_simplepara imprimir os 10 tokens mais comuns.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import Counter
____
# Tokenize the article: tokens
tokens = ____
# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]
# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____
# Print the 10 most common tokens
print(____)