ComeçarComece de graça

Prática de pré-processamento de texto

Agora, é a sua vez de aplicar as técnicas que você aprendeu para ajudar a limpar o texto e obter melhores resultados no site NLP. Você precisará remover palavras de parada e caracteres não alfabéticos, lematizar e executar uma nova bolsa de palavras no texto limpo.

Você começa com os mesmos tokens que criou no último exercício: lower_tokens. Você também tem a classe Counter importada.

Este exercício faz parte do curso

Introdução ao processamento de linguagem natural em Python

Ver curso

Instruções do exercício

  • Importe a classe WordNetLemmatizer de nltk.stem.
  • Crie uma lista alpha_only que contenha apenas caracteres alfabéticos. Você pode usar o método .isalpha() para verificar isso.
  • Crie outra lista chamada no_stops que consista em palavras de alpha_only que não estejam contidas em english_stops.
  • Inicialize um objeto WordNetLemmatizer chamado wordnet_lemmatizer e use seu método .lemmatize() nos tokens em no_stops para criar uma nova lista chamada lemmatized.
  • Crie um novo Counter chamado bow com as palavras lematizadas.
  • Por fim, imprima os 10 tokens mais comuns.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import WordNetLemmatizer
____

# Retain alphabetic words: alpha_only
alpha_only = [t for t in ____ if ____]

# Remove all stop words: no_stops
no_stops = [t for t in ____ if t not in ____]

# Instantiate the WordNetLemmatizer
wordnet_lemmatizer = ____

# Lemmatize all tokens into a new list: lemmatized
lemmatized = [____ for t in ____]

# Create the bag-of-words: bow
bow = ____(____)

# Print the 10 most common tokens
print(____.____(__))
Editar e executar o código