Lematização
Ao continuar sua análise de avaliações de usuários, você percebeu que o stemming às vezes gera palavras não padronizadas, como "fli" a partir de "flying", o que pode reduzir a interpretabilidade. Para resolver isso, agora você vai usar lematização, que retorna palavras reais e ajuda a melhorar a clareza e a precisão da sua análise.
WordNetLemmatizer já foi importado, stop_words já foi definido e os recursos necessários do NLTK foram baixados.
Este exercício faz parte do curso
Processamento de Linguagem Natural (NLP) em Python
Instruções do exercício
- Crie uma instância
lemmatizerda classeWordNetLemmatizer(). - Use o
lemmatizerpara lematizar oslower_tokens.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
clean_tokens = ['flying', 'lot', 'lately', 'flights', 'keep', 'getting', 'delayed', 'honestly', 'traveling', 'work', 'gets', 'exhausting', 'endless', 'delays', 'every', 'travel', 'teaches', 'something', 'new']
# Create lemmatizer
lemmatizer = ____()
# Lemmatize each token
lemmatized_tokens = [____.____(____) for ____ in clean_tokens]
print(lemmatized_tokens)