Crea un VCorpus da un data frame
Se i tuoi dati testuali sono in un data frame, puoi usare DataframeSource() per l’analisi. Il data frame passato a DataframeSource() deve avere una struttura specifica:
- La prima colonna deve chiamarsi
doc_ide contenere una stringa univoca per ogni riga. - La seconda colonna deve chiamarsi
textcon codifica "UTF-8" (abbastanza standard). - Qualsiasi altra colonna, dalla terza in poi, è considerata metadato e verrà mantenuta come tale.
Questo esercizio introduce meta() per estrarre i metadati associati a ciascun documento. Spesso i tuoi dati includono metadati come autori, date, tag di argomento o luoghi che possono arricchire l’analisi. Una volta che il testo è un corpus, puoi applicare meta() per esaminare le informazioni aggiuntive a livello di documento.
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
Nel tuo workspace c’è un semplice data frame chiamato example_text con i nomi di colonna corretti e alcuni metadati. C’è anche vec_corpus, un corpus volatile creato con VectorSource()
- Crea
df_sourceusandoDataframeSource()conexample_text. - Crea
df_corpusconvertendodf_sourcein un oggetto corpus volatile conVCorpus(). - Stampa
df_corpus. Nota quanti documenti contiene e il numero di elementi di metadati mantenuti a livello di documento. - Usa
meta()sudf_corpusper stampare i metadati associati ai documenti. - Esamina l’oggetto
vec_corpuscaricato in memoria. Confronta il numero di documenti condf_corpus. - Usa
meta()suvec_corpusper confrontare i metadati presenti travec_corpusedf_corpus.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a DataframeSource from the example text
df_source <- ___
# Convert df_source to a volatile corpus
df_corpus <- ___
# Examine df_corpus
df_corpus
# Examine df_corpus metadata
___
# Compare the number of documents in the vector source
vec_corpus
# Compare metadata in the vector corpus
___