Crea un VCorpus da un data frame

Se i tuoi dati testuali sono in un data frame, puoi usare DataframeSource() per l’analisi. Il data frame passato a DataframeSource() deve avere una struttura specifica:

La prima colonna deve chiamarsi doc_id e contenere una stringa univoca per ogni riga.
La seconda colonna deve chiamarsi text con codifica "UTF-8" (abbastanza standard).
Qualsiasi altra colonna, dalla terza in poi, è considerata metadato e verrà mantenuta come tale.

Questo esercizio introduce meta() per estrarre i metadati associati a ciascun documento. Spesso i tuoi dati includono metadati come autori, date, tag di argomento o luoghi che possono arricchire l’analisi. Una volta che il testo è un corpus, puoi applicare meta() per esaminare le informazioni aggiuntive a livello di documento.

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza corso

Istruzioni dell'esercizio

Nel tuo workspace c’è un semplice data frame chiamato example_text con i nomi di colonna corretti e alcuni metadati. C’è anche vec_corpus, un corpus volatile creato con VectorSource()

Crea df_source usando DataframeSource() con example_text.
Crea df_corpus convertendo df_source in un oggetto corpus volatile con VCorpus().
Stampa df_corpus. Nota quanti documenti contiene e il numero di elementi di metadati mantenuti a livello di documento.
Usa meta() su df_corpus per stampare i metadati associati ai documenti.
Esamina l’oggetto vec_corpus caricato in memoria. Confronta il numero di documenti con df_corpus.
Usa meta() su vec_corpus per confrontare i metadati presenti tra vec_corpus e df_corpus.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create a DataframeSource from the example text
df_source <- ___

# Convert df_source to a volatile corpus
df_corpus <- ___

# Examine df_corpus
df_corpus

# Examine df_corpus metadata
___

# Compare the number of documents in the vector source
vec_corpus

# Compare metadata in the vector corpus
___

Modifica ed esegui il codice