Funções comuns de limpeza do tm
Agora que você conhece duas formas de criar um corpus, pode focar na limpeza — ou pré-processamento — do texto. Primeiro, você vai limpar um pequeno trecho de texto; depois, seguirá para corpora maiores.
No método bag-of-words para mineração de texto, a limpeza ajuda a agrupar termos. Por exemplo, pode fazer sentido considerar as palavras "miner", "mining" e "mine" como um único termo. As etapas específicas de pré-processamento variam conforme o projeto. Por exemplo, as palavras usadas em tweets são bem diferentes das usadas em documentos jurídicos, então o processo de limpeza também pode ser bastante diferente.
Funções comuns de pré-processamento incluem:
tolower(): Colocar todos os caracteres em minúsculasremovePunctuation(): Remover toda a pontuaçãoremoveNumbers(): Remover númerosstripWhitespace(): Remover espaços em branco em excesso
tolower() faz parte do R base, enquanto as outras três funções vêm do pacote tm. A partir de agora, vamos carregar tm e qdap para você quando forem necessários. Sempre que apresentarmos um pacote novo, pediremos para você carregá-lo na primeira vez.
A variável text, contendo uma sentença, está mostrada no script.
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
Aplique cada uma das seguintes funções a text, apenas imprimindo os resultados no console:
- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create the object: text
text <- "She woke up at 6 A.M. It\'s so early! She was only 10% awake and began drinking coffee in front of her computer."
# Make lowercase
___
# Remove punctuation
____
# Remove numbers
___
# Remove whitespace
___