Prática de pré-processamento de texto
Agora, é a sua vez de aplicar as técnicas que você aprendeu para ajudar a limpar o texto e obter melhores resultados no site NLP. Você precisará remover palavras de parada e caracteres não alfabéticos, lematizar e executar uma nova bolsa de palavras no texto limpo.
Você começa com os mesmos tokens que criou no último exercício: lower_tokens
. Você também tem a classe Counter
importada.
Este exercício faz parte do curso
Introdução ao processamento de linguagem natural em Python
Instruções do exercício
- Importe a classe
WordNetLemmatizer
denltk.stem
. - Crie uma lista
alpha_only
que contenha apenas caracteres alfabéticos. Você pode usar o método.isalpha()
para verificar isso. - Crie outra lista chamada
no_stops
que consista em palavras dealpha_only
que não estejam contidas emenglish_stops
. - Inicialize um objeto
WordNetLemmatizer
chamadowordnet_lemmatizer
e use seu método.lemmatize()
nos tokens emno_stops
para criar uma nova lista chamadalemmatized
. - Crie um novo
Counter
chamadobow
com as palavras lematizadas. - Por fim, imprima os 10 tokens mais comuns.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import WordNetLemmatizer
____
# Retain alphabetic words: alpha_only
alpha_only = [t for t in ____ if ____]
# Remove all stop words: no_stops
no_stops = [t for t in ____ if t not in ____]
# Instantiate the WordNetLemmatizer
wordnet_lemmatizer = ____
# Lemmatize all tokens into a new list: lemmatized
lemmatized = [____ for t in ____]
# Create the bag-of-words: bow
bow = ____(____)
# Print the 10 most common tokens
print(____.____(__))