Criando um contador com um conjunto de palavras
Neste exercício, você criará seu primeiro (neste curso) contador de saco de palavras usando um artigo da Wikipédia, que foi pré-carregado como article
. Você pode tentar fazer a análise de palavras sem olhar o texto completo do artigo e adivinhar qual é o tópico! Se você quiser dar uma olhada no título no final, nós o incluímos como article_title
. Observe que o texto desse artigo foi muito pouco pré-processado a partir da entrada bruta do banco de dados da Wikipédia.
word_tokenize
foi importado para você.
Este exercício faz parte do curso
Introdução ao processamento de linguagem natural em Python
Instruções do exercício
- Importar
Counter
decollections
. - Use
word_tokenize()
para dividir o artigo em tokens. - Use uma compreensão de lista com
t
como variável de iterador para converter todos os tokens em letras minúsculas. O método.lower()
converte o texto em letras minúsculas. - Crie um contador de saco de palavras chamado
bow_simple
usandoCounter()
comlower_tokens
como argumento. - Use o método
.most_common()
debow_simple
para imprimir os 10 tokens mais comuns.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import Counter
____
# Tokenize the article: tokens
tokens = ____
# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]
# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____
# Print the 10 most common tokens
print(____)