ComeçarComece de graça

Transforme o vetor em um objeto VCorpus (2)

Agora que convertimos nosso vetor em um objeto Source, vamos passá-lo para outra função do tm, VCorpus(), para criar nosso corpus volátil. Bem direto, certo?

O objeto VCorpus é uma lista aninhada (lista de listas). Em cada índice do objeto VCorpus, há um objeto PlainTextDocument, que é uma lista contendo os dados de texto propriamente ditos (content) e alguns metadados correspondentes (meta). Pode ajudar visualizar um objeto VCorpus para entender o todo.

Para revisar um único documento (o 10º), você faz o subconjunto com colchetes duplos.

coffee_corpus[[10]]

Para revisar apenas o texto, você indexa a lista duas vezes. Para acessar os metadados do documento, como o timestamp, troque [1] por [2]. Outra forma de revisar o texto puro é com a função content(), que não precisa do segundo conjunto de colchetes.

coffee_corpus[[10]][1]

content(coffee_corpus[[10]])

Este exercício faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercício

  • Chame a função VCorpus() no objeto coffee_source para criar coffee_corpus.
  • Verifique que coffee_corpus é um objeto VCorpus imprimindo-o no console.
  • Imprima no console o 15º elemento de coffee_corpus para verificar que ele é um PlainTextDocument que contém o conteúdo e os metadados do 15º tweet. Use subconjunto com colchetes duplos.
  • Imprima o conteúdo do 15º tweet em coffee_corpus. Use colchetes duplos para selecionar o tweet correto, seguidos de colchetes simples para extrair o conteúdo desse tweet.
  • Imprima o content() do 10º tweet dentro de coffee_corpus

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

## coffee_source is already in your workspace

# Make a volatile corpus from coffee_source
coffee_corpus <- ___

# Print out coffee_corpus
___

# Print the 15th tweet in coffee_corpus
___

# Print the contents of the 15th tweet in coffee_corpus
___

# Now use content to review the plain text of the 10th tweet
___(___[[___]])
Editar e executar o código