Crear un Counter con bag-of-words
En este ejercicio vas a construir tu primer contador bag-of-words (en este curso) usando un artículo de Wikipedia, que ya está precargado como article. Intenta hacer el bag-of-words sin mirar el texto completo del artículo y adivina cuál es el tema. Si quieres echar un vistazo al título al final, lo hemos incluido como article_title. Ten en cuenta que este texto ha tenido muy poco preprocesamiento desde la entrada original de la base de datos de Wikipedia.
word_tokenize ya se ha importado por ti.
Este ejercicio forma parte del curso
Introducción al Natural Language Processing en Python
Instrucciones del ejercicio
- Importa
Counterdecollections. - Usa
word_tokenize()para dividir el artículo en tokens. - Usa una list comprehension con
tcomo variable iteradora para convertir todos los tokens a minúsculas. El método.lower()convierte el texto a minúsculas. - Crea un contador bag-of-words llamado
bow_simpleutilizandoCounter()conlower_tokenscomo argumento. - Usa el método
.most_common()debow_simplepara imprimir los 10 tokens más comunes.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import Counter
____
# Tokenize the article: tokens
tokens = ____
# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]
# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____
# Print the 10 most common tokens
print(____)