ComeçarComece de graça

Introdução a word stemming e stem completion

Outro passo útil de pré-processamento envolve o word stemming e o stem completion. O stemming reduz as palavras ao seu radical para unificar termos entre documentos. Por exemplo, o radical de "computational", "computers" e "computation" é "comput". Mas como "comput" não é uma palavra real, queremos reconstruir as palavras para que "computational", "computers" e "computation" se refiram a uma palavra reconhecível, como "computer". Essa etapa de reconstrução é chamada de stem completion.

O pacote tm fornece a função stemDocument() para chegar à raiz de uma palavra. Essa função pode receber um vetor de caracteres e retornar um vetor de caracteres, ou receber um PlainTextDocument e retornar um PlainTextDocument.

Por exemplo,

stemDocument(c("computational", "computers", "computation"))

retorna "comput" "comput" "comput".

Você usará stemCompletion() para reconstruir esses radicais em um termo conhecido. stemCompletion() recebe um vetor de caracteres e um dicionário de completamento. O dicionário de completamento pode ser um vetor de caracteres ou um objeto Corpus. De qualquer forma, no nosso exemplo, o dicionário precisaria conter a palavra "computer" para que todas as ocorrências de "comput" possam ser reconstruídas.

Este exercício faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercício

  • Crie um vetor chamado complicate contendo as palavras "complicated", "complication" e "complicatedly", nessa ordem.
  • Armazene a versão com stemming de complicate em um objeto chamado stem_doc.
  • Crie comp_dict contendo uma palavra, "complicate".
  • Crie complete_text aplicando stemCompletion() a stem_doc. Recomplete as palavras usando comp_dict como corpus de referência.
  • Imprima complete_text no console.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create complicate
complicate <- ___

# Perform word stemming: stem_doc
stem_doc <- ___

# Create the completion dictionary: comp_dict
comp_dict <- ___

# Perform stem completion: complete_text 
complete_text <- ___

# Print complete_text
complete_text
Editar e executar o código