IniziaInizia gratis

Trasforma il vettore in un oggetto VCorpus (2)

Ora che abbiamo convertito il nostro vettore in un oggetto Source, lo passiamo a un'altra funzione di tm, VCorpus(), per creare il nostro corpus volatile. Abbastanza lineare, giusto?

L'oggetto VCorpus è una lista annidata, o lista di liste. A ogni indice dell'oggetto VCorpus c'è un oggetto PlainTextDocument, che è una lista contenente i dati testuali veri e propri (content) e alcuni metadati corrispondenti (meta). Può essere utile visualizzare un oggetto VCorpus per farsi un'idea dell'insieme.

Per esaminare un singolo documento (il decimo), fai il subset con le doppie parentesi quadre.

coffee_corpus[[10]]

Per rivedere il testo effettivo, indicizza la lista due volte. Per accedere ai metadati del documento, come il timestamp, cambia [1] in [2]. Un altro modo per rivedere il testo semplice è con la funzione content(), che non richiede il secondo set di parentesi.

coffee_corpus[[10]][1]

content(coffee_corpus[[10]])

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza il corso

Istruzioni dell'esercizio

  • Chiama la funzione VCorpus() sull'oggetto coffee_source per creare coffee_corpus.
  • Verifica che coffee_corpus sia un oggetto VCorpus stampandolo nella console.
  • Stampa in console il 15° elemento di coffee_corpus per verificare che sia un PlainTextDocument che contiene il contenuto e i metadati del 15° tweet. Usa il subset con doppie parentesi.
  • Stampa il contenuto del 15° tweet in coffee_corpus. Usa le doppie parentesi per selezionare il tweet corretto, seguite da parentesi singole per estrarre il contenuto di quel tweet.
  • Stampa il content() del 10° tweet all'interno di coffee_corpus

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

## coffee_source is already in your workspace

# Make a volatile corpus from coffee_source
coffee_corpus <- ___

# Print out coffee_corpus
___

# Print the 15th tweet in coffee_corpus
___

# Print the contents of the 15th tweet in coffee_corpus
___

# Now use content to review the plain text of the 10th tweet
___(___[[___]])
Modifica ed esegui il codice