Capturer des métadonnées dans tm

Selon votre objectif, vous pouvez souhaiter conserver des métadonnées sur le document lorsque vous créez un corpus.

Pour capturer des métadonnées au niveau du document, les noms et l’ordre des colonnes doivent être :

doc_id – une chaîne unique pour chaque document
text – le texte à analyser
... – toute autre colonne sera automatiquement enregistrée comme métadonnée.

Parfois, vous devrez renommer des colonnes pour correspondre aux attentes de DataframeSource(). La fonction names() est utile pour cela.

tweets existe dans votre espace de travail en tant que data frame avec les colonnes "num", "text", "screenName" et "created".

Cet exercice fait partie du cours

<cours>Text mining avec sac de mots en R</cours>

Voir le cours

Instructions de l’exercice

Renommez la première colonne de tweets en "doc_id".
Définissez le schéma du document avec DataframeSource() sur le data frame tweets réduit.
Transformez la collection de documents en corpus volatile en l’imbriquant dans la fonction personnalisée clean_corpus().
Appliquez content() au premier tweet avec des crochets doubles comme text_corpus[[1]] pour voir le texte brut nettoyé.
Vérifiez que toutes les métadonnées ont été capturées en utilisant la fonction meta() sur le premier document avec des crochets simples.

Rappelez-vous : lorsque vous accédez à une partie d’un corpus, les crochets doubles ou simples font une différence ! Pour cet exercice, vous utiliserez des crochets doubles avec content() et des crochets simples avec meta().

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Rename columns
___(tweets)[1] <- "___"

# Set the schema: docs
docs <- ___(___)

# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))

# Examine the first doc content
___(text_corpus[[___]])

# Access the first doc metadata
___(text_corpus[___])

Modifier et exécuter le code