ComeçarComece de graça

Pré-processamento de texto: Stemming

A raiz das palavras costuma ser mais importante que suas terminações, especialmente em análise de texto. O livro Animal Farm é claramente sobre animais. No entanto, saber que o livro menciona animal's 248 vezes e animal 107 vezes pode não ajudar muito na sua análise.

tidy_animal_farm contém um tibble com as palavras de Animal Farm, tokenizadas e sem stop words. O próximo passo é aplicar stemming às palavras e explorar os resultados.

Este exercício faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

Ver curso

Instruções do exercício

  • Use dplyr e SnowballC para aplicar stemming às palavras de tidy_animal_farm.
  • Imprima as frequências antigas de palavras de tidy_animal_farm.
  • Imprima as novas frequências de palavras de stemmed_animal_farm.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Perform stemming on tidy_animal_farm
stemmed_animal_farm <- tidy_animal_farm %>%
  ___(word = ___(___))

# Print the old word frequencies 
___ %>%
  ___(word, sort = ___)

# Print the new word frequencies
___ %>%
  ___(word, sort = ___)
Editar e executar o código