Prática de pré-processamento de texto

Agora, é a sua vez de aplicar as técnicas que você aprendeu para ajudar a limpar o texto e obter melhores resultados no site NLP. Você precisará remover palavras de parada e caracteres não alfabéticos, lematizar e executar uma nova bolsa de palavras no texto limpo.

Você começa com os mesmos tokens que criou no último exercício: lower_tokens. Você também tem a classe Counter importada.

Este exercício faz parte do curso

Introdução ao processamento de linguagem natural em Python

Ver curso

Instruções do exercício

Importe a classe WordNetLemmatizer de nltk.stem.
Crie uma lista alpha_only que contenha apenas caracteres alfabéticos. Você pode usar o método .isalpha() para verificar isso.
Crie outra lista chamada no_stops que consista em palavras de alpha_only que não estejam contidas em english_stops.
Inicialize um objeto WordNetLemmatizer chamado wordnet_lemmatizer e use seu método .lemmatize() nos tokens em no_stops para criar uma nova lista chamada lemmatized.
Crie um novo Counter chamado bow com as palavras lematizadas.
Por fim, imprima os 10 tokens mais comuns.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import WordNetLemmatizer
____

# Retain alphabetic words: alpha_only
alpha_only = [t for t in ____ if ____]

# Remove all stop words: no_stops
no_stops = [t for t in ____ if t not in ____]

# Instantiate the WordNetLemmatizer
wordnet_lemmatizer = ____

# Lemmatize all tokens into a new list: lemmatized
lemmatized = [____ for t in ____]

# Create the bag-of-words: bow
bow = ____(____)

# Print the 10 most common tokens
print(____.____(__))

Editar e executar o código