IniziaInizia gratis

Crea un VCorpus da un data frame

Se i tuoi dati testuali sono in un data frame, puoi usare DataframeSource() per l’analisi. Il data frame passato a DataframeSource() deve avere una struttura specifica:

  • La prima colonna deve chiamarsi doc_id e contenere una stringa univoca per ogni riga.
  • La seconda colonna deve chiamarsi text con codifica "UTF-8" (abbastanza standard).
  • Qualsiasi altra colonna, dalla terza in poi, è considerata metadato e verrà mantenuta come tale.

Questo esercizio introduce meta() per estrarre i metadati associati a ciascun documento. Spesso i tuoi dati includono metadati come autori, date, tag di argomento o luoghi che possono arricchire l’analisi. Una volta che il testo è un corpus, puoi applicare meta() per esaminare le informazioni aggiuntive a livello di documento.

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza il corso

Istruzioni dell'esercizio

Nel tuo workspace c’è un semplice data frame chiamato example_text con i nomi di colonna corretti e alcuni metadati. C’è anche vec_corpus, un corpus volatile creato con VectorSource()

  • Crea df_source usando DataframeSource() con example_text.
  • Crea df_corpus convertendo df_source in un oggetto corpus volatile con VCorpus().
  • Stampa df_corpus. Nota quanti documenti contiene e il numero di elementi di metadati mantenuti a livello di documento.
  • Usa meta() su df_corpus per stampare i metadati associati ai documenti.
  • Esamina l’oggetto vec_corpus caricato in memoria. Confronta il numero di documenti con df_corpus.
  • Usa meta() su vec_corpus per confrontare i metadati presenti tra vec_corpus e df_corpus.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create a DataframeSource from the example text
df_source <- ___

# Convert df_source to a volatile corpus
df_corpus <- ___

# Examine df_corpus
df_corpus

# Examine df_corpus metadata
___

# Compare the number of documents in the vector source
vec_corpus

# Compare metadata in the vector corpus
___
Modifica ed esegui il codice