Pré-processamento de texto: remover stop words
Stop words são inevitáveis na escrita. No entanto, para determinar o quão semelhantes dois textos são entre si ou ao tentar encontrar temas em um texto, as stop words podem atrapalhar. No livro Animal Farm, o primeiro capítulo tem apenas 2.636 palavras, enquanto quase 200 delas são a palavra "the".
Normalmente, "the" não vai nos ajudar em projetos de análise de texto. Neste exercício, você vai remover as stop words do primeiro capítulo de Animal Farm.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em R
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Tokenize animal farm's text_column column
tidy_animal_farm <- animal_farm %>%
___(word, ___)