Construindo um Counter com bag-of-words

Neste exercício, você vai construir seu primeiro (neste curso) contador bag-of-words usando um artigo da Wikipedia, que já foi carregado como article. Tente fazer o bag-of-words sem olhar o texto completo do artigo e adivinhar qual é o tópico! Se quiser dar uma espiada no título ao final, incluímos ele como article_title. Observe que este texto do artigo teve pouquíssimo pré-processamento a partir da entrada bruta do banco de dados da Wikipedia.

word_tokenize já foi importado para você.

Este exercicio faz parte do curso

Introdução ao Processamento de Linguagem Natural em Python

Ver curso

Instruções do exercicio

Importe Counter de collections.
Use word_tokenize() para dividir o artigo em tokens.
Use uma list comprehension com t como variável iteradora para converter todos os tokens em minúsculas. O método .lower() converte texto para letras minúsculas.
Crie um contador bag-of-words chamado bow_simple usando Counter() com lower_tokens como argumento.
Use o método .most_common() de bow_simple para imprimir os 10 tokens mais comuns.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import Counter
____

# Tokenize the article: tokens
tokens = ____

# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]

# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____

# Print the 10 most common tokens
print(____)

Editar e Executar Código