Crie um corpus e converta para minúsculas
Um corpus é uma lista de documentos de texto. Você precisa converter o texto dos tweets em um corpus para facilitar as etapas seguintes do processamento de texto.
Ao analisar texto, é importante garantir que uma palavra não seja contada como duas diferentes apenas porque aparece com letras maiúsculas e minúsculas diferentes. Por isso, você deve converter o texto para minúsculas.
Neste exercício, você vai criar um corpus de texto e converter todos os caracteres para minúsculas.
A saída de texto limpa do exercício anterior já foi carregada como twts_gsub.
A biblioteca tm já foi carregada para este exercício.
Este exercício faz parte do curso
Analisando dados de mídias sociais em R
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Convert text in "twt_gsub" dataset to a text corpus and view output
twt_corpus <- twt_gsub %>%
___() %>%
___()
head(twt_corpus$___)