Capturando metadados no tm
Dependendo do que você quer fazer, pode ser interessante manter metadados do documento ao criar um corpus.
Para capturar metadados no nível do documento, os nomes e a ordem das colunas devem ser:
doc_id- uma string única para cada documentotext- o texto a ser analisado...- quaisquer outras colunas serão catalogadas automaticamente como metadados.
Às vezes, você vai precisar renomear colunas para atender às expectativas de DataframeSource(). A função names() ajuda nisso.
tweets existe no seu workspace como um data frame com as colunas "num", "text", "screenName" e "created".
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
- Renomeie a primeira coluna de
tweetspara "doc_id". - Defina o esquema do documento com
DataframeSource()no data frametweetsmenor. - Faça a coleção de documentos como um corpus volátil aninhado na função personalizada
clean_corpus(). - Aplique
content()ao primeiro tweet com colchetes duplos, como emtext_corpus[[1]], para ver o texto simples limpo. - Confirme que todos os metadados foram capturados usando a função
meta()no primeiro documento com colchetes simples.
Lembre-se: ao acessar parte de um corpus, os colchetes duplos ou simples fazem diferença! Neste exercício, você usará colchetes duplos com content() e colchetes simples com meta().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Rename columns
___(tweets)[1] <- "___"
# Set the schema: docs
docs <- ___(___)
# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))
# Examine the first doc content
___(text_corpus[[___]])
# Access the first doc metadata
___(text_corpus[___])