CommencerCommencer gratuitement

Capturer des métadonnées dans tm

Selon votre objectif, vous pouvez souhaiter conserver des métadonnées sur le document lorsque vous créez un corpus.

Pour capturer des métadonnées au niveau du document, les noms et l’ordre des colonnes doivent être :

  1. doc_id – une chaîne unique pour chaque document
  2. text – le texte à analyser
  3. ... – toute autre colonne sera automatiquement enregistrée comme métadonnée.

Parfois, vous devrez renommer des colonnes pour correspondre aux attentes de DataframeSource(). La fonction names() est utile pour cela.

tweets existe dans votre espace de travail en tant que data frame avec les colonnes "num", "text", "screenName" et "created".

Cet exercice fait partie du cours

Text mining avec sac de mots en R

Afficher le cours

Instructions

  • Renommez la première colonne de tweets en "doc_id".
  • Définissez le schéma du document avec DataframeSource() sur le data frame tweets réduit.
  • Transformez la collection de documents en corpus volatile en l’imbriquant dans la fonction personnalisée clean_corpus().
  • Appliquez content() au premier tweet avec des crochets doubles comme text_corpus[[1]] pour voir le texte brut nettoyé.
  • Vérifiez que toutes les métadonnées ont été capturées en utilisant la fonction meta() sur le premier document avec des crochets simples.

Rappelez-vous : lorsque vous accédez à une partie d’un corpus, les crochets doubles ou simples font une différence ! Pour cet exercice, vous utiliserez des crochets doubles avec content() et des crochets simples avec meta().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Rename columns
___(tweets)[1] <- "___"

# Set the schema: docs
docs <- ___(___)

# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))

# Examine the first doc content
___(text_corpus[[___]])

# Access the first doc metadata
___(text_corpus[___])
Modifier et exécuter le code