Práctica de preprocesamiento de texto
Ahora te toca a ti aplicar las técnicas que has aprendido para ayudar a limpiar el texto y obtener mejores resultados en NLP. Tendrás que eliminar las palabras vacías y los caracteres no alfabéticos, lematizar y realizar una nueva bolsa de palabras en tu texto limpio.
Empiezas con las mismas fichas que creaste en el último ejercicio: lower_tokens
. También tienes importada la clase Counter
.
Este ejercicio forma parte del curso
Introducción al procesamiento de lenguaje natural en Python
Instrucciones de ejercicio
- Importa la clase
WordNetLemmatizer
denltk.stem
. - Crea una lista
alpha_only
que sólo contenga caracteres alfabéticos. Puedes utilizar el método.isalpha()
para comprobarlo. - Crea otra lista llamada
no_stops
formada por palabras dealpha_only
que no estén contenidas enenglish_stops
. - Inicializa un objeto
WordNetLemmatizer
llamadowordnet_lemmatizer
y utiliza su método.lemmatize()
sobre los tokens deno_stops
para crear una nueva lista llamadalemmatized
. - Crea un nuevo
Counter
llamadobow
con las palabras lematizadas. - Por último, imprime las 10 fichas más comunes.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Import WordNetLemmatizer
____
# Retain alphabetic words: alpha_only
alpha_only = [t for t in ____ if ____]
# Remove all stop words: no_stops
no_stops = [t for t in ____ if t not in ____]
# Instantiate the WordNetLemmatizer
wordnet_lemmatizer = ____
# Lemmatize all tokens into a new list: lemmatized
lemmatized = [____ for t in ____]
# Create the bag-of-words: bow
bow = ____(____)
# Print the 10 most common tokens
print(____.____(__))