ComeçarComece de graça

Criando um contador com um conjunto de palavras

Neste exercício, você criará seu primeiro (neste curso) contador de saco de palavras usando um artigo da Wikipédia, que foi pré-carregado como article. Você pode tentar fazer a análise de palavras sem olhar o texto completo do artigo e adivinhar qual é o tópico! Se você quiser dar uma olhada no título no final, nós o incluímos como article_title. Observe que o texto desse artigo foi muito pouco pré-processado a partir da entrada bruta do banco de dados da Wikipédia.

word_tokenize foi importado para você.

Este exercício faz parte do curso

Introdução ao processamento de linguagem natural em Python

Ver curso

Instruções do exercício

  • Importar Counter de collections.
  • Use word_tokenize() para dividir o artigo em tokens.
  • Use uma compreensão de lista com t como variável de iterador para converter todos os tokens em letras minúsculas. O método .lower() converte o texto em letras minúsculas.
  • Crie um contador de saco de palavras chamado bow_simple usando Counter() com lower_tokens como argumento.
  • Use o método .most_common() de bow_simple para imprimir os 10 tokens mais comuns.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import Counter
____

# Tokenize the article: tokens
tokens = ____

# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]

# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____

# Print the 10 most common tokens
print(____)
Editar e executar o código