Introdução a word stemming e stem completion
Outro passo útil de pré-processamento envolve o word stemming e o stem completion. O stemming reduz as palavras ao seu radical para unificar termos entre documentos. Por exemplo, o radical de "computational", "computers" e "computation" é "comput". Mas como "comput" não é uma palavra real, queremos reconstruir as palavras para que "computational", "computers" e "computation" se refiram a uma palavra reconhecível, como "computer". Essa etapa de reconstrução é chamada de stem completion.
O pacote tm fornece a função stemDocument() para chegar à raiz de uma palavra. Essa função pode receber um vetor de caracteres e retornar um vetor de caracteres, ou receber um PlainTextDocument e retornar um PlainTextDocument.
Por exemplo,
stemDocument(c("computational", "computers", "computation"))
retorna "comput" "comput" "comput".
Você usará stemCompletion() para reconstruir esses radicais em um termo conhecido. stemCompletion() recebe um vetor de caracteres e um dicionário de completamento. O dicionário de completamento pode ser um vetor de caracteres ou um objeto Corpus. De qualquer forma, no nosso exemplo, o dicionário precisaria conter a palavra "computer" para que todas as ocorrências de "comput" possam ser reconstruídas.
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
- Crie um vetor chamado
complicatecontendo as palavras "complicated", "complication" e "complicatedly", nessa ordem. - Armazene a versão com stemming de
complicateem um objeto chamadostem_doc. - Crie
comp_dictcontendo uma palavra, "complicate". - Crie
complete_textaplicandostemCompletion()astem_doc. Recomplete as palavras usandocomp_dictcomo corpus de referência. - Imprima
complete_textno console.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create complicate
complicate <- ___
# Perform word stemming: stem_doc
stem_doc <- ___
# Create the completion dictionary: comp_dict
comp_dict <- ___
# Perform stem completion: complete_text
complete_text <- ___
# Print complete_text
complete_text