ComeçarComece de graça

Crie um VCorpus a partir de um data frame

Se seus dados de texto estiverem em um data frame, você pode usar DataframeSource() para sua análise. O data frame passado para DataframeSource() deve ter uma estrutura específica:

  • A coluna um deve se chamar doc_id e conter uma string única para cada linha.
  • A coluna dois deve se chamar text com codificação "UTF-8" (bem padrão).
  • Quaisquer outras colunas, 3+, são consideradas metadados e serão mantidas como tal.

Este exercício apresenta meta() para extrair os metadados associados a cada documento. Muitas vezes seus dados terão metadados como autores, datas, tags de tópico ou locais que podem orientar sua análise. Depois que seu texto for um corpus, você pode aplicar meta() para examinar as informações adicionais no nível do documento.

Este exercício faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercício

No seu workspace, há um data frame simples chamado example_text com os nomes de coluna corretos e alguns metadados. Também há vec_corpus, que é um corpus volátil criado com VectorSource()

  • Crie df_source usando DataframeSource() com example_text.
  • Crie df_corpus convertendo df_source em um objeto de corpus volátil com VCorpus().
  • Imprima df_corpus. Observe quantos documentos ele contém e o número de pontos de metadados mantidos no nível do documento.
  • Use meta() em df_corpus para imprimir os metadados associados aos documentos.
  • Examine o objeto vec_corpus pré-carregado. Compare o número de documentos com df_corpus.
  • Use meta() em vec_corpus para comparar quaisquer metadados encontrados entre vec_corpus e df_corpus.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create a DataframeSource from the example text
df_source <- ___

# Convert df_source to a volatile corpus
df_corpus <- ___

# Examine df_corpus
df_corpus

# Examine df_corpus metadata
___

# Compare the number of documents in the vector source
vec_corpus

# Compare metadata in the vector corpus
___
Editar e executar o código