Capturer des métadonnées dans tm
Selon votre objectif, vous pouvez souhaiter conserver des métadonnées sur le document lorsque vous créez un corpus.
Pour capturer des métadonnées au niveau du document, les noms et l’ordre des colonnes doivent être :
doc_id– une chaîne unique pour chaque documenttext– le texte à analyser...– toute autre colonne sera automatiquement enregistrée comme métadonnée.
Parfois, vous devrez renommer des colonnes pour correspondre aux attentes de DataframeSource(). La fonction names() est utile pour cela.
tweets existe dans votre espace de travail en tant que data frame avec les colonnes "num", "text", "screenName" et "created".
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
- Renommez la première colonne de
tweetsen "doc_id". - Définissez le schéma du document avec
DataframeSource()sur le data frametweetsréduit. - Transformez la collection de documents en corpus volatile en l’imbriquant dans la fonction personnalisée
clean_corpus(). - Appliquez
content()au premier tweet avec des crochets doubles commetext_corpus[[1]]pour voir le texte brut nettoyé. - Vérifiez que toutes les métadonnées ont été capturées en utilisant la fonction
meta()sur le premier document avec des crochets simples.
Rappelez-vous : lorsque vous accédez à une partie d’un corpus, les crochets doubles ou simples font une différence ! Pour cet exercice, vous utiliserez des crochets doubles avec content() et des crochets simples avec meta().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Rename columns
___(tweets)[1] <- "___"
# Set the schema: docs
docs <- ___(___)
# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))
# Examine the first doc content
___(text_corpus[[___]])
# Access the first doc metadata
___(text_corpus[___])