Práctica de preprocesamiento de texto
Ahora te toca a ti aplicar las técnicas que has aprendido para ayudar a limpiar el texto y obtener mejores resultados en NLP. Tendrás que eliminar las palabras vacías y los caracteres no alfabéticos, lematizar y realizar una nueva bolsa de palabras en tu texto limpio.
Empiezas con las mismas fichas que creaste en el último ejercicio: lower_tokens. También tienes importada la clase Counter.
Este ejercicio forma parte del curso
Introducción al procesamiento de lenguaje natural en Python
Instrucciones del ejercicio
- Importa la clase
WordNetLemmatizerdenltk.stem. - Crea una lista
alpha_onlyque sólo contenga caracteres alfabéticos. Puedes utilizar el método.isalpha()para comprobarlo. - Crea otra lista llamada
no_stopsformada por palabras dealpha_onlyque no estén contenidas enenglish_stops. - Inicializa un objeto
WordNetLemmatizerllamadowordnet_lemmatizery utiliza su método.lemmatize()sobre los tokens deno_stopspara crear una nueva lista llamadalemmatized. - Crea un nuevo
Counterllamadobowcon las palabras lematizadas. - Por último, imprime las 10 fichas más comunes.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import WordNetLemmatizer
____
# Retain alphabetic words: alpha_only
alpha_only = [t for t in ____ if ____]
# Remove all stop words: no_stops
no_stops = [t for t in ____ if t not in ____]
# Instantiate the WordNetLemmatizer
wordnet_lemmatizer = ____
# Lemmatize all tokens into a new list: lemmatized
lemmatized = [____ for t in ____]
# Create the bag-of-words: bow
bow = ____(____)
# Print the 10 most common tokens
print(____.____(__))