Crie um VCorpus a partir de um data frame
Se seus dados de texto estiverem em um data frame, você pode usar DataframeSource() para sua análise. O data frame passado para DataframeSource() deve ter uma estrutura específica:
- A coluna um deve se chamar
doc_ide conter uma string única para cada linha. - A coluna dois deve se chamar
textcom codificação "UTF-8" (bem padrão). - Quaisquer outras colunas, 3+, são consideradas metadados e serão mantidas como tal.
Este exercício apresenta meta() para extrair os metadados associados a cada documento. Muitas vezes seus dados terão metadados como autores, datas, tags de tópico ou locais que podem orientar sua análise. Depois que seu texto for um corpus, você pode aplicar meta() para examinar as informações adicionais no nível do documento.
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
No seu workspace, há um data frame simples chamado example_text com os nomes de coluna corretos e alguns metadados. Também há vec_corpus, que é um corpus volátil criado com VectorSource()
- Crie
df_sourceusandoDataframeSource()comexample_text. - Crie
df_corpusconvertendodf_sourceem um objeto de corpus volátil comVCorpus(). - Imprima
df_corpus. Observe quantos documentos ele contém e o número de pontos de metadados mantidos no nível do documento. - Use
meta()emdf_corpuspara imprimir os metadados associados aos documentos. - Examine o objeto
vec_corpuspré-carregado. Compare o número de documentos comdf_corpus. - Use
meta()emvec_corpuspara comparar quaisquer metadados encontrados entrevec_corpusedf_corpus.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a DataframeSource from the example text
df_source <- ___
# Convert df_source to a volatile corpus
df_corpus <- ___
# Examine df_corpus
df_corpus
# Examine df_corpus metadata
___
# Compare the number of documents in the vector source
vec_corpus
# Compare metadata in the vector corpus
___