Lematização com spaCy
Neste exercício, você vai praticar lematização. A lematização pode ajudar a gerar a forma raiz de palavras derivadas. Isso significa que, dada qualquer frase, esperamos que o número de lemas seja menor ou igual ao número de tokens.
A primeira avaliação de alimentos da Amazon é fornecida para você em uma string chamada text. O modelo en_core_web_sm está carregado como nlp e foi executado sobre text para gerar document, um contêiner Doc para a string de texto.
tokens, uma lista contendo os tokens de text, também já está carregada para você usar.
Este exercício faz parte do curso
Processamento de Linguagem Natural com spaCy
Instruções do exercício
- Acrescente o lema de todos os tokens em
documente depois imprima a listalemmas. - Imprima a lista
tokense observe as diferenças entretokenselemmas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
document = nlp(text)
tokens = [token.text for token in document]
# Append the lemma for all tokens in the document
lemmas = [token.____ for token in document]
print("Lemmas:\n", ____, "\n")
# Print tokens and compare with lemmas list
print("Tokens:\n", ____)