Práctica de preprocesamiento de texto

Ahora te toca a ti aplicar las técnicas que has aprendido para ayudar a limpiar el texto y obtener mejores resultados en NLP. Tendrás que eliminar las palabras vacías y los caracteres no alfabéticos, lematizar y realizar una nueva bolsa de palabras en tu texto limpio.

Empiezas con las mismas fichas que creaste en el último ejercicio: lower_tokens. También tienes importada la clase Counter.

Este ejercicio forma parte del curso

Introducción al procesamiento de lenguaje natural en Python

Ver curso

Instrucciones del ejercicio

Importa la clase WordNetLemmatizer de nltk.stem.
Crea una lista alpha_only que sólo contenga caracteres alfabéticos. Puedes utilizar el método .isalpha() para comprobarlo.
Crea otra lista llamada no_stops formada por palabras de alpha_only que no estén contenidas en english_stops.
Inicializa un objeto WordNetLemmatizer llamado wordnet_lemmatizer y utiliza su método .lemmatize() sobre los tokens de no_stops para crear una nueva lista llamada lemmatized.
Crea un nuevo Counter llamado bow con las palabras lematizadas.
Por último, imprime las 10 fichas más comunes.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import WordNetLemmatizer
____

# Retain alphabetic words: alpha_only
alpha_only = [t for t in ____ if ____]

# Remove all stop words: no_stops
no_stops = [t for t in ____ if t not in ____]

# Instantiate the WordNetLemmatizer
wordnet_lemmatizer = ____

# Lemmatize all tokens into a new list: lemmatized
lemmatized = [____ for t in ____]

# Create the bag-of-words: bow
bow = ____(____)

# Print the 10 most common tokens
print(____.____(__))

Editar y ejecutar código