ComeçarComece de graça

Funções comuns de limpeza do tm

Agora que você conhece duas formas de criar um corpus, pode focar na limpeza — ou pré-processamento — do texto. Primeiro, você vai limpar um pequeno trecho de texto; depois, seguirá para corpora maiores.

No método bag-of-words para mineração de texto, a limpeza ajuda a agrupar termos. Por exemplo, pode fazer sentido considerar as palavras "miner", "mining" e "mine" como um único termo. As etapas específicas de pré-processamento variam conforme o projeto. Por exemplo, as palavras usadas em tweets são bem diferentes das usadas em documentos jurídicos, então o processo de limpeza também pode ser bastante diferente.

Funções comuns de pré-processamento incluem:

  • tolower(): Colocar todos os caracteres em minúsculas
  • removePunctuation(): Remover toda a pontuação
  • removeNumbers(): Remover números
  • stripWhitespace(): Remover espaços em branco em excesso

tolower() faz parte do R base, enquanto as outras três funções vêm do pacote tm. A partir de agora, vamos carregar tm e qdap para você quando forem necessários. Sempre que apresentarmos um pacote novo, pediremos para você carregá-lo na primeira vez.

A variável text, contendo uma sentença, está mostrada no script.

Este exercício faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercício

Aplique cada uma das seguintes funções a text, apenas imprimindo os resultados no console:

- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create the object: text
text <- "She woke up at       6 A.M. It\'s so early!  She was only 10% awake and began drinking coffee in front of her computer."

# Make lowercase
___

# Remove punctuation
____

# Remove numbers
___

# Remove whitespace
___
Editar e executar o código