Creación de un contador con bolsa de palabras
En este ejercicio, construirás tu primer contador de bolsa de palabras (en este curso) utilizando un artículo de Wikipedia, que se ha cargado previamente como article
. Intenta hacer la bolsa de palabras sin mirar el texto completo del artículo, ¡y adivina cuál es el tema! Si quieres echar un vistazo al título al final, lo hemos incluido como article_title
. Ten en cuenta que el texto de este artículo ha sido muy poco preprocesado a partir de la entrada en bruto de la base de datos de Wikipedia.
word_tokenize
se ha importado para ti.
Este ejercicio forma parte del curso
Introducción al procesamiento de lenguaje natural en Python
Instrucciones de ejercicio
- Importa
Counter
desdecollections
. - Utiliza
word_tokenize()
para dividir el artículo en fichas. - Utiliza una comprensión de lista con
t
como variable iteradora para convertir todas las fichas en minúsculas. El método.lower()
convierte el texto en minúsculas. - Crea un contador de bolsas de palabras llamado
bow_simple
utilizandoCounter()
conlower_tokens
como argumento. - Utiliza el método
.most_common()
debow_simple
para imprimir las 10 fichas más comunes.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Import Counter
____
# Tokenize the article: tokens
tokens = ____
# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]
# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____
# Print the 10 most common tokens
print(____)