Transforme o vetor em um objeto VCorpus (2)
Agora que convertimos nosso vetor em um objeto Source, vamos passá-lo para outra função do tm, VCorpus(), para criar nosso corpus volátil. Bem direto, certo?
O objeto VCorpus é uma lista aninhada (lista de listas). Em cada índice do objeto VCorpus, há um objeto PlainTextDocument, que é uma lista contendo os dados de texto propriamente ditos (content) e alguns metadados correspondentes (meta). Pode ajudar visualizar um objeto VCorpus para entender o todo.
Para revisar um único documento (o 10º), você faz o subconjunto com colchetes duplos.
coffee_corpus[[10]]
Para revisar apenas o texto, você indexa a lista duas vezes. Para acessar os metadados do documento, como o timestamp, troque [1] por [2]. Outra forma de revisar o texto puro é com a função content(), que não precisa do segundo conjunto de colchetes.
coffee_corpus[[10]][1]
content(coffee_corpus[[10]])
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
- Chame a função
VCorpus()no objetocoffee_sourcepara criarcoffee_corpus. - Verifique que
coffee_corpusé um objetoVCorpusimprimindo-o no console. - Imprima no console o 15º elemento de
coffee_corpuspara verificar que ele é umPlainTextDocumentque contém o conteúdo e os metadados do 15º tweet. Use subconjunto com colchetes duplos. - Imprima o conteúdo do 15º tweet em
coffee_corpus. Use colchetes duplos para selecionar o tweet correto, seguidos de colchetes simples para extrair o conteúdo desse tweet. - Imprima o
content()do 10º tweet dentro decoffee_corpus
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
## coffee_source is already in your workspace
# Make a volatile corpus from coffee_source
coffee_corpus <- ___
# Print out coffee_corpus
___
# Print the 15th tweet in coffee_corpus
___
# Print the contents of the 15th tweet in coffee_corpus
___
# Now use content to review the plain text of the 10th tweet
___(___[[___]])