ComenzarEmpieza gratis

Creación de un contador con bolsa de palabras

En este ejercicio, construirás tu primer contador de bolsa de palabras (en este curso) utilizando un artículo de Wikipedia, que se ha cargado previamente como article. Intenta hacer la bolsa de palabras sin mirar el texto completo del artículo, ¡y adivina cuál es el tema! Si quieres echar un vistazo al título al final, lo hemos incluido como article_title. Ten en cuenta que el texto de este artículo ha sido muy poco preprocesado a partir de la entrada en bruto de la base de datos de Wikipedia.

word_tokenize se ha importado para ti.

Este ejercicio forma parte del curso

Introducción al procesamiento de lenguaje natural en Python

Ver curso

Instrucciones de ejercicio

  • Importa Counter desde collections.
  • Utiliza word_tokenize() para dividir el artículo en fichas.
  • Utiliza una comprensión de lista con t como variable iteradora para convertir todas las fichas en minúsculas. El método .lower() convierte el texto en minúsculas.
  • Crea un contador de bolsas de palabras llamado bow_simple utilizando Counter() con lower_tokens como argumento.
  • Utiliza el método .most_common() de bow_simple para imprimir las 10 fichas más comunes.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Import Counter
____

# Tokenize the article: tokens
tokens = ____

# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]

# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____

# Print the 10 most common tokens
print(____)
Editar y ejecutar código