ComeçarComece de graça

Construindo um Counter com bag-of-words

Neste exercício, você vai construir seu primeiro (neste curso) contador bag-of-words usando um artigo da Wikipedia, que já foi carregado como article. Tente fazer o bag-of-words sem olhar o texto completo do artigo e adivinhar qual é o tópico! Se quiser dar uma espiada no título ao final, incluímos ele como article_title. Observe que este texto do artigo teve pouquíssimo pré-processamento a partir da entrada bruta do banco de dados da Wikipedia.

word_tokenize já foi importado para você.

Este exercício faz parte do curso

Introdução ao Processamento de Linguagem Natural em Python

Ver curso

Instruções do exercício

  • Importe Counter de collections.
  • Use word_tokenize() para dividir o artigo em tokens.
  • Use uma list comprehension com t como variável iteradora para converter todos os tokens em minúsculas. O método .lower() converte texto para letras minúsculas.
  • Crie um contador bag-of-words chamado bow_simple usando Counter() com lower_tokens como argumento.
  • Use o método .most_common() de bow_simple para imprimir os 10 tokens mais comuns.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import Counter
____

# Tokenize the article: tokens
tokens = ____

# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]

# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____

# Print the 10 most common tokens
print(____)
Editar e executar o código