Acquisire i metadati in tm
A seconda di ciò che vuoi ottenere, potresti voler conservare i metadati sul documento quando crei un corpus.
Per acquisire metadati a livello di documento, i nomi e l’ordine delle colonne devono essere:
doc_id- una stringa univoca per ogni documentotext- il testo da esaminare...- eventuali altre colonne saranno catalogate automaticamente come metadati.
A volte dovrai rinominare le colonne per rispettare le aspettative di DataframeSource(). La funzione names() è utile per questo.
tweets è presente nel tuo workspace come data frame con le colonne "num", "text", "screenName" e "created".
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
- Rinomina la prima colonna di
tweetsin "doc_id". - Imposta lo schema del documento con
DataframeSource()sul data frametweetspiù piccolo. - Rendi la raccolta di documenti un corpus volatile annidato nella funzione personalizzata
clean_corpus(). - Applica
content()al primo tweet con le doppie parentesi quadre, ad esempiotext_corpus[[1]], per vedere il testo semplice ripulito. - Verifica che tutti i metadati siano stati acquisiti usando la funzione
meta()sul primo documento con le singole parentesi quadre.
Ricorda: quando accedi a una parte di un corpus, le parentesi quadre doppie o singole fanno la differenza! In questo esercizio userai le doppie parentesi con content() e le singole con meta().
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Rename columns
___(tweets)[1] <- "___"
# Set the schema: docs
docs <- ___(___)
# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))
# Examine the first doc content
___(text_corpus[[___]])
# Access the first doc metadata
___(text_corpus[___])