ComeçarComece de graça

Radicalização de palavras e recompletar radicais em uma frase

Vamos considerar a seguinte frase como nosso documento para este exercício:

"In a complicated haste, Tom rushed to fix a new complication, too complicatedly."

Essa frase contém as mesmas três formas da palavra "complicate" que vimos no exercício anterior. A diferença aqui é que, mesmo que você chame stemDocument() nessa frase, ela será retornada sem aplicar radicalização em nenhuma palavra. Reserve um momento e teste isso no console. Lembre-se de incluir a pontuação.

Isso acontece porque stemDocument() trata a frase inteira como uma única palavra. Em outras palavras, nosso documento é um vetor de caracteres de comprimento 1, em vez de comprimento n, onde n é o número de palavras no documento. Para resolver esse problema, primeiro removemos a pontuação com a função removePunctuation(), que você aprendeu há alguns exercícios. Em seguida, aplicamos strsplit() a esse vetor de comprimento 1 para obter comprimento n, usamos unlist(), e então procedemos à radicalização e à recompletação.

Não se preocupe se isso pareceu confuso. Vamos passar por esse processo passo a passo!

Este exercício faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercício

O documento text_data e o dicionário de recompletação comp_dict já estão carregados no seu ambiente.

  • Remova a pontuação em text_data usando removePunctuation(), atribuindo a rm_punc.
  • Chame strsplit() em rm_punc com o argumento split igual a " ". Aninhe isso dentro de unlist(), atribuindo a n_char_vec.
  • Use stemDocument() novamente para realizar a radicalização de palavras em n_char_vec, atribuindo a stem_doc.
  • Crie complete_doc recompletando seu documento radicalizado com stemCompletion() e usando comp_dict como corpus de referência.

stem_doc e complete_doc ficaram como você esperava?

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Remove punctuation: rm_punc
rm_punc <- ____

# Create character vector: n_char_vec
n_char_vec <- unlist(___(___, split = " "))

# Perform word stemming: stem_doc
stem_doc <- ___

# Print stem_doc
stem_doc

# Re-complete stemmed document: complete_doc
complete_doc <- ___

# Print complete_doc
complete_doc
Editar e executar o código