Pré-processamento de texto: Stemming
A raiz das palavras costuma ser mais importante que suas terminações, especialmente em análise de texto. O livro Animal Farm é claramente sobre animais. No entanto, saber que o livro menciona animal's 248 vezes e animal 107 vezes pode não ajudar muito na sua análise.
tidy_animal_farm contém um tibble com as palavras de Animal Farm, tokenizadas e sem stop words. O próximo passo é aplicar stemming às palavras e explorar os resultados.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em R
Instruções do exercício
- Use
dplyreSnowballCpara aplicar stemming às palavras detidy_animal_farm. - Imprima as frequências antigas de palavras de
tidy_animal_farm. - Imprima as novas frequências de palavras de
stemmed_animal_farm.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Perform stemming on tidy_animal_farm
stemmed_animal_farm <- tidy_animal_farm %>%
___(word = ___(___))
# Print the old word frequencies
___ %>%
___(word, sort = ___)
# Print the new word frequencies
___ %>%
___(word, sort = ___)