Créer un VCorpus à partir d’un data frame
Si vos données textuelles sont dans un data frame, vous pouvez utiliser DataframeSource() pour votre analyse. Le data frame passé à DataframeSource() doit respecter une structure précise :
- La première colonne doit s’appeler
doc_idet contenir une chaîne unique pour chaque ligne. - La deuxième colonne doit s’appeler
textavec un encodage « UTF-8 » (très courant). - Toutes les autres colonnes, à partir de 3, sont considérées comme des métadonnées et seront conservées comme telles.
Cet exercice présente meta() pour extraire les métadonnées associées à chaque document. Vos données comportent souvent des métadonnées comme des auteur·rice·s, des dates, des étiquettes de sujet ou des lieux qui peuvent enrichir votre analyse. Une fois votre texte converti en corpus, vous pouvez utiliser meta() pour examiner ces informations supplémentaires au niveau du document.
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
Dans votre espace de travail, vous disposez d’un data frame simple nommé example_text avec les bons noms de colonnes et quelques métadonnées. Vous avez aussi vec_corpus, un corpus volatile créé avec VectorSource().
- Créez
df_sourceen utilisantDataframeSource()avecexample_text. - Créez
df_corpusen convertissantdf_sourceen objet corpus volatile avecVCorpus(). - Affichez
df_corpus. Observez le nombre de documents qu’il contient et le nombre de métadonnées conservées au niveau du document. - Utilisez
meta()surdf_corpuspour afficher les métadonnées associées aux documents. - Examinez l’objet préchargé
vec_corpus. Comparez le nombre de documents avecdf_corpus. - Utilisez
meta()survec_corpuspour comparer les métadonnées trouvées entrevec_corpusetdf_corpus.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a DataframeSource from the example text
df_source <- ___
# Convert df_source to a volatile corpus
df_corpus <- ___
# Examine df_corpus
df_corpus
# Examine df_corpus metadata
___
# Compare the number of documents in the vector source
vec_corpus
# Compare metadata in the vector corpus
___