IniziaInizia gratis

Acquisire i metadati in tm

A seconda di ciò che vuoi ottenere, potresti voler conservare i metadati sul documento quando crei un corpus.

Per acquisire metadati a livello di documento, i nomi e l’ordine delle colonne devono essere:

  1. doc_id - una stringa univoca per ogni documento
  2. text - il testo da esaminare
  3. ... - eventuali altre colonne saranno catalogate automaticamente come metadati.

A volte dovrai rinominare le colonne per rispettare le aspettative di DataframeSource(). La funzione names() è utile per questo.

tweets è presente nel tuo workspace come data frame con le colonne "num", "text", "screenName" e "created".

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza il corso

Istruzioni dell'esercizio

  • Rinomina la prima colonna di tweets in "doc_id".
  • Imposta lo schema del documento con DataframeSource() sul data frame tweets più piccolo.
  • Rendi la raccolta di documenti un corpus volatile annidato nella funzione personalizzata clean_corpus().
  • Applica content() al primo tweet con le doppie parentesi quadre, ad esempio text_corpus[[1]], per vedere il testo semplice ripulito.
  • Verifica che tutti i metadati siano stati acquisiti usando la funzione meta() sul primo documento con le singole parentesi quadre.

Ricorda: quando accedi a una parte di un corpus, le parentesi quadre doppie o singole fanno la differenza! In questo esercizio userai le doppie parentesi con content() e le singole con meta().

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Rename columns
___(tweets)[1] <- "___"

# Set the schema: docs
docs <- ___(___)

# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))

# Examine the first doc content
___(text_corpus[[___]])

# Access the first doc metadata
___(text_corpus[___])
Modifica ed esegui il codice