Transformer le vecteur en objet VCorpus (2)
Maintenant que nous avons converti notre vecteur en objet Source, nous le passons à une autre fonction de tm, VCorpus(), pour créer notre corpus volatile. Plutôt simple, n’est-ce pas ?
L’objet VCorpus est une liste imbriquée (liste de listes). À chaque indice de l’objet VCorpus, on trouve un objet PlainTextDocument, c’est-à-dire une liste qui contient les données textuelles (content) et des métadonnées associées (meta). Il peut être utile de visualiser un objet VCorpus pour se le représenter clairement.
Pour consulter un document (le 10e), on fait un sous-ensemble avec des doubles crochets.
coffee_corpus[[10]]
Pour consulter le texte lui-même, on indexe la liste deux fois. Pour accéder aux métadonnées du document, comme l’horodatage, remplacez [1] par [2]. Une autre façon d’afficher le texte brut consiste à utiliser la fonction content(), qui n’a pas besoin du second jeu de crochets.
coffee_corpus[[10]][1]
content(coffee_corpus[[10]])
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
- Appelez la fonction
VCorpus()sur l’objetcoffee_sourcepour créercoffee_corpus. - Vérifiez que
coffee_corpusest un objetVCorpusen l’affichant dans la console. - Affichez dans la console le 15e élément de
coffee_corpuspour vérifier qu’il s’agit d’unPlainTextDocumentcontenant le contenu et les métadonnées du 15e tweet. Utilisez le sous-ensemble avec doubles crochets. - Affichez le contenu du 15e tweet dans
coffee_corpus. Utilisez des doubles crochets pour sélectionner le bon tweet, puis des crochets simples pour extraire le contenu de ce tweet. - Affichez le
content()du 10e tweet danscoffee_corpus
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
## coffee_source is already in your workspace
# Make a volatile corpus from coffee_source
coffee_corpus <- ___
# Print out coffee_corpus
___
# Print the 15th tweet in coffee_corpus
___
# Print the contents of the 15th tweet in coffee_corpus
___
# Now use content to review the plain text of the 10th tweet
___(___[[___]])