Capturando metadados no tm

Dependendo do que você quer fazer, pode ser interessante manter metadados do documento ao criar um corpus.

Para capturar metadados no nível do documento, os nomes e a ordem das colunas devem ser:

doc_id - uma string única para cada documento
text - o texto a ser analisado
... - quaisquer outras colunas serão catalogadas automaticamente como metadados.

Às vezes, você vai precisar renomear colunas para atender às expectativas de DataframeSource(). A função names() ajuda nisso.

tweets existe no seu workspace como um data frame com as colunas "num", "text", "screenName" e "created".

Este exercicio faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercicio

Renomeie a primeira coluna de tweets para "doc_id".
Defina o esquema do documento com DataframeSource() no data frame tweets menor.
Faça a coleção de documentos como um corpus volátil aninhado na função personalizada clean_corpus().
Aplique content() ao primeiro tweet com colchetes duplos, como em text_corpus[[1]], para ver o texto simples limpo.
Confirme que todos os metadados foram capturados usando a função meta() no primeiro documento com colchetes simples.

Lembre-se: ao acessar parte de um corpus, os colchetes duplos ou simples fazem diferença! Neste exercício, você usará colchetes duplos com content() e colchetes simples com meta().

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Rename columns
___(tweets)[1] <- "___"

# Set the schema: docs
docs <- ___(___)

# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))

# Examine the first doc content
___(text_corpus[[___]])

# Access the first doc metadata
___(text_corpus[___])

Editar e Executar Código