ComenzarEmpieza gratis

Crear un Counter con bag-of-words

En este ejercicio vas a construir tu primer contador bag-of-words (en este curso) usando un artículo de Wikipedia, que ya está precargado como article. Intenta hacer el bag-of-words sin mirar el texto completo del artículo y adivina cuál es el tema. Si quieres echar un vistazo al título al final, lo hemos incluido como article_title. Ten en cuenta que este texto ha tenido muy poco preprocesamiento desde la entrada original de la base de datos de Wikipedia.

word_tokenize ya se ha importado por ti.

Este ejercicio forma parte del curso

Introducción al Natural Language Processing en Python

Ver curso

Instrucciones del ejercicio

  • Importa Counter de collections.
  • Usa word_tokenize() para dividir el artículo en tokens.
  • Usa una list comprehension con t como variable iteradora para convertir todos los tokens a minúsculas. El método .lower() convierte el texto a minúsculas.
  • Crea un contador bag-of-words llamado bow_simple utilizando Counter() con lower_tokens como argumento.
  • Usa el método .most_common() de bow_simple para imprimir los 10 tokens más comunes.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import Counter
____

# Tokenize the article: tokens
tokens = ____

# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]

# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____

# Print the 10 most common tokens
print(____)
Editar y ejecutar código