Radicalização de palavras e recompletar radicais em uma frase
Vamos considerar a seguinte frase como nosso documento para este exercício:
"In a complicated haste, Tom rushed to fix a new complication, too complicatedly."
Essa frase contém as mesmas três formas da palavra "complicate" que vimos no exercício anterior. A diferença aqui é que, mesmo que você chame stemDocument() nessa frase, ela será retornada sem aplicar radicalização em nenhuma palavra. Reserve um momento e teste isso no console. Lembre-se de incluir a pontuação.
Isso acontece porque stemDocument() trata a frase inteira como uma única palavra. Em outras palavras, nosso documento é um vetor de caracteres de comprimento 1, em vez de comprimento n, onde n é o número de palavras no documento. Para resolver esse problema, primeiro removemos a pontuação com a função removePunctuation(), que você aprendeu há alguns exercícios. Em seguida, aplicamos strsplit() a esse vetor de comprimento 1 para obter comprimento n, usamos unlist(), e então procedemos à radicalização e à recompletação.
Não se preocupe se isso pareceu confuso. Vamos passar por esse processo passo a passo!
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
O documento text_data e o dicionário de recompletação comp_dict já estão carregados no seu ambiente.
- Remova a pontuação em
text_datausandoremovePunctuation(), atribuindo arm_punc. - Chame
strsplit()emrm_punccom o argumentosplitigual a" ". Aninhe isso dentro deunlist(), atribuindo an_char_vec. - Use
stemDocument()novamente para realizar a radicalização de palavras emn_char_vec, atribuindo astem_doc. - Crie
complete_docrecompletando seu documento radicalizado comstemCompletion()e usandocomp_dictcomo corpus de referência.
stem_doc e complete_doc ficaram como você esperava?
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Remove punctuation: rm_punc
rm_punc <- ____
# Create character vector: n_char_vec
n_char_vec <- unlist(___(___, split = " "))
# Perform word stemming: stem_doc
stem_doc <- ___
# Print stem_doc
stem_doc
# Re-complete stemmed document: complete_doc
complete_doc <- ___
# Print complete_doc
complete_doc