Criando um contador com um conjunto de palavras
Neste exercício, você criará seu primeiro (neste curso) contador de saco de palavras usando um artigo da Wikipédia, que foi pré-carregado como article. Você pode tentar fazer a análise de palavras sem olhar o texto completo do artigo e adivinhar qual é o tópico! Se você quiser dar uma olhada no título no final, nós o incluímos como article_title. Observe que o texto desse artigo foi muito pouco pré-processado a partir da entrada bruta do banco de dados da Wikipédia.
word_tokenize foi importado para você.
Este exercício faz parte do curso
Introdução ao processamento de linguagem natural em Python
Instruções do exercício
- Importar
Counterdecollections. - Use
word_tokenize()para dividir o artigo em tokens. - Use uma compreensão de lista com
tcomo variável de iterador para converter todos os tokens em letras minúsculas. O método.lower()converte o texto em letras minúsculas. - Crie um contador de saco de palavras chamado
bow_simpleusandoCounter()comlower_tokenscomo argumento. - Use o método
.most_common()debow_simplepara imprimir os 10 tokens mais comuns.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import Counter
____
# Tokenize the article: tokens
tokens = ____
# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]
# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____
# Print the 10 most common tokens
print(____)