Transformer le vecteur en objet VCorpus (1)
Souvenez-vous : vous avez chargé vos données textuelles dans un vecteur appelé coffee_tweets lors de l’exercice précédent. L’étape suivante consiste à convertir ce vecteur qui contient les textes en un corpus. Comme vous l’avez vu dans la vidéo, un corpus est un ensemble de documents, et il est utile de savoir que, dans l’écosystème tm, R le reconnaît comme un type de données.
Il existe deux variantes de ce type : le permanent corpus PCorpus et le volatile corpus VCorpus. En substance, la différence tient à la façon dont l’ensemble de documents est stocké sur votre ordinateur. Dans ce cours, nous utiliserons le corpus volatil, conservé dans la mémoire vive (RAM) plutôt qu’enregistré sur disque, afin d’être plus efficace en mémoire.
Pour créer un corpus volatil, R doit interpréter chaque élément de notre vecteur de texte, coffee_tweets, comme un document. Le package tm fournit des fonctions dites Source pour cela ! Dans cet exercice, nous utiliserons la fonction Source VectorSource() puisque nos données textuelles sont contenues dans un vecteur. La sortie de cette fonction est appelée un objet Source. À vous de jouer !
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
- Chargez le package
tm. - Créez un objet Source à partir du vecteur
coffee_tweets. Nommez ce nouvel objetcoffee_source.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load tm
___
# Make a vector source from coffee_tweets
___