ComenzarEmpieza gratis

Práctica de preprocesamiento de texto

Ahora te toca a ti aplicar las técnicas que has aprendido para ayudar a limpiar el texto y obtener mejores resultados en NLP. Tendrás que eliminar las palabras vacías y los caracteres no alfabéticos, lematizar y realizar una nueva bolsa de palabras en tu texto limpio.

Empiezas con las mismas fichas que creaste en el último ejercicio: lower_tokens. También tienes importada la clase Counter.

Este ejercicio forma parte del curso

Introducción al procesamiento de lenguaje natural en Python

Ver curso

Instrucciones de ejercicio

  • Importa la clase WordNetLemmatizer de nltk.stem.
  • Crea una lista alpha_only que sólo contenga caracteres alfabéticos. Puedes utilizar el método .isalpha() para comprobarlo.
  • Crea otra lista llamada no_stops formada por palabras de alpha_only que no estén contenidas en english_stops.
  • Inicializa un objeto WordNetLemmatizer llamado wordnet_lemmatizer y utiliza su método .lemmatize() sobre los tokens de no_stops para crear una nueva lista llamada lemmatized.
  • Crea un nuevo Counter llamado bow con las palabras lematizadas.
  • Por último, imprime las 10 fichas más comunes.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Import WordNetLemmatizer
____

# Retain alphabetic words: alpha_only
alpha_only = [t for t in ____ if ____]

# Remove all stop words: no_stops
no_stops = [t for t in ____ if t not in ____]

# Instantiate the WordNetLemmatizer
wordnet_lemmatizer = ____

# Lemmatize all tokens into a new list: lemmatized
lemmatized = [____ for t in ____]

# Create the bag-of-words: bow
bow = ____(____)

# Print the 10 most common tokens
print(____.____(__))
Editar y ejecutar código