Acquisire i metadati in tm

A seconda di ciò che vuoi ottenere, potresti voler conservare i metadati sul documento quando crei un corpus.

Per acquisire metadati a livello di documento, i nomi e l’ordine delle colonne devono essere:

doc_id - una stringa univoca per ogni documento
text - il testo da esaminare
... - eventuali altre colonne saranno catalogate automaticamente come metadati.

A volte dovrai rinominare le colonne per rispettare le aspettative di DataframeSource(). La funzione names() è utile per questo.

tweets è presente nel tuo workspace come data frame con le colonne "num", "text", "screenName" e "created".

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza corso

Istruzioni dell'esercizio

Rinomina la prima colonna di tweets in "doc_id".
Imposta lo schema del documento con DataframeSource() sul data frame tweets più piccolo.
Rendi la raccolta di documenti un corpus volatile annidato nella funzione personalizzata clean_corpus().
Applica content() al primo tweet con le doppie parentesi quadre, ad esempio text_corpus[[1]], per vedere il testo semplice ripulito.
Verifica che tutti i metadati siano stati acquisiti usando la funzione meta() sul primo documento con le singole parentesi quadre.

Ricorda: quando accedi a una parte di un corpus, le parentesi quadre doppie o singole fanno la differenza! In questo esercizio userai le doppie parentesi con content() e le singole con meta().

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Rename columns
___(tweets)[1] <- "___"

# Set the schema: docs
docs <- ___(___)

# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))

# Examine the first doc content
___(text_corpus[[___]])

# Access the first doc metadata
___(text_corpus[___])

Modifica ed esegui il codice