Trasforma il vettore in un oggetto VCorpus (2)
Ora che abbiamo convertito il nostro vettore in un oggetto Source, lo passiamo a un'altra funzione di tm, VCorpus(), per creare il nostro corpus volatile. Abbastanza lineare, giusto?
L'oggetto VCorpus è una lista annidata, o lista di liste. A ogni indice dell'oggetto VCorpus c'è un oggetto PlainTextDocument, che è una lista contenente i dati testuali veri e propri (content) e alcuni metadati corrispondenti (meta). Può essere utile visualizzare un oggetto VCorpus per farsi un'idea dell'insieme.
Per esaminare un singolo documento (il decimo), fai il subset con le doppie parentesi quadre.
coffee_corpus[[10]]
Per rivedere il testo effettivo, indicizza la lista due volte. Per accedere ai metadati del documento, come il timestamp, cambia [1] in [2]. Un altro modo per rivedere il testo semplice è con la funzione content(), che non richiede il secondo set di parentesi.
coffee_corpus[[10]][1]
content(coffee_corpus[[10]])
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
- Chiama la funzione
VCorpus()sull'oggettocoffee_sourceper crearecoffee_corpus. - Verifica che
coffee_corpussia un oggettoVCorpusstampandolo nella console. - Stampa in console il 15° elemento di
coffee_corpusper verificare che sia unPlainTextDocumentche contiene il contenuto e i metadati del 15° tweet. Usa il subset con doppie parentesi. - Stampa il contenuto del 15° tweet in
coffee_corpus. Usa le doppie parentesi per selezionare il tweet corretto, seguite da parentesi singole per estrarre il contenuto di quel tweet. - Stampa il
content()del 10° tweet all'interno dicoffee_corpus
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
## coffee_source is already in your workspace
# Make a volatile corpus from coffee_source
coffee_corpus <- ___
# Print out coffee_corpus
___
# Print the 15th tweet in coffee_corpus
___
# Print the contents of the 15th tweet in coffee_corpus
___
# Now use content to review the plain text of the 10th tweet
___(___[[___]])