ComeçarComece de graça

Capturando metadados no tm

Dependendo do que você quer fazer, pode ser interessante manter metadados do documento ao criar um corpus.

Para capturar metadados no nível do documento, os nomes e a ordem das colunas devem ser:

  1. doc_id - uma string única para cada documento
  2. text - o texto a ser analisado
  3. ... - quaisquer outras colunas serão catalogadas automaticamente como metadados.

Às vezes, você vai precisar renomear colunas para atender às expectativas de DataframeSource(). A função names() ajuda nisso.

tweets existe no seu workspace como um data frame com as colunas "num", "text", "screenName" e "created".

Este exercício faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercício

  • Renomeie a primeira coluna de tweets para "doc_id".
  • Defina o esquema do documento com DataframeSource() no data frame tweets menor.
  • Faça a coleção de documentos como um corpus volátil aninhado na função personalizada clean_corpus().
  • Aplique content() ao primeiro tweet com colchetes duplos, como em text_corpus[[1]], para ver o texto simples limpo.
  • Confirme que todos os metadados foram capturados usando a função meta() no primeiro documento com colchetes simples.

Lembre-se: ao acessar parte de um corpus, os colchetes duplos ou simples fazem diferença! Neste exercício, você usará colchetes duplos com content() e colchetes simples com meta().

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Rename columns
___(tweets)[1] <- "___"

# Set the schema: docs
docs <- ___(___)

# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))

# Examine the first doc content
___(text_corpus[[___]])

# Access the first doc metadata
___(text_corpus[___])
Editar e executar o código