Créer un VCorpus à partir d’un data frame

Si vos données textuelles sont dans un data frame, vous pouvez utiliser DataframeSource() pour votre analyse. Le data frame passé à DataframeSource() doit respecter une structure précise :

La première colonne doit s’appeler doc_id et contenir une chaîne unique pour chaque ligne.
La deuxième colonne doit s’appeler text avec un encodage « UTF-8 » (très courant).
Toutes les autres colonnes, à partir de 3, sont considérées comme des métadonnées et seront conservées comme telles.

Cet exercice présente meta() pour extraire les métadonnées associées à chaque document. Vos données comportent souvent des métadonnées comme des auteur·rice·s, des dates, des étiquettes de sujet ou des lieux qui peuvent enrichir votre analyse. Une fois votre texte converti en corpus, vous pouvez utiliser meta() pour examiner ces informations supplémentaires au niveau du document.

Cet exercice fait partie du cours

<cours>Text mining avec sac de mots en R</cours>

Voir le cours

Instructions de l’exercice

Dans votre espace de travail, vous disposez d’un data frame simple nommé example_text avec les bons noms de colonnes et quelques métadonnées. Vous avez aussi vec_corpus, un corpus volatile créé avec VectorSource().

Créez df_source en utilisant DataframeSource() avec example_text.
Créez df_corpus en convertissant df_source en objet corpus volatile avec VCorpus().
Affichez df_corpus. Observez le nombre de documents qu’il contient et le nombre de métadonnées conservées au niveau du document.
Utilisez meta() sur df_corpus pour afficher les métadonnées associées aux documents.
Examinez l’objet préchargé vec_corpus. Comparez le nombre de documents avec df_corpus.
Utilisez meta() sur vec_corpus pour comparer les métadonnées trouvées entre vec_corpus et df_corpus.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create a DataframeSource from the example text
df_source <- ___

# Convert df_source to a volatile corpus
df_corpus <- ___

# Examine df_corpus
df_corpus

# Examine df_corpus metadata
___

# Compare the number of documents in the vector source
vec_corpus

# Compare metadata in the vector corpus
___

Modifier et exécuter le code