Maak van de vector een VCorpus-object (2)
Nu we onze vector hebben omgezet naar een Source-object, geven we het door aan een andere tm-functie, VCorpus(), om onze volatile corpus te maken. Klinkt logisch, toch?
Het VCorpus-object is een geneste lijst of lijst-van-lijsten. Op elke index van het VCorpus-object staat een PlainTextDocument-object, dat een lijst is met de echte tekstgegevens (content) en bijbehorende metadata (meta). Het kan helpen om een VCorpus-object te visualiseren om het geheel te begrijpen.
Om één documentobject (het 10e) te bekijken, subset je met dubbele vierkante haken.
coffee_corpus[[10]]
Om de daadwerkelijke tekst te bekijken, indexeer je de lijst twee keer. Wil je de metadata van het document, zoals de timestamp, gebruik dan [2] in plaats van [1]. Een andere manier om de platte tekst te bekijken is met de functie content(), die de tweede set haken niet nodig heeft.
coffee_corpus[[10]][1]
content(coffee_corpus[[10]])
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Oefeninstructies
- Roep de functie
VCorpus()aan op het objectcoffee_sourceomcoffee_corpuste maken. - Controleer dat
coffee_corpuseenVCorpus-object is door het naar de console te printen. - Print het 15e element van
coffee_corpusnaar de console om te verifiëren dat het eenPlainTextDocumentis met de content en metadata van de 15e tweet. Gebruik subsetting met dubbele vierkante haken. - Print de content van de 15e tweet in
coffee_corpus. Gebruik dubbele haken om de juiste tweet te selecteren, gevolgd door enkele haken om de content van die tweet te extraheren. - Print de
content()van de 10e tweet binnencoffee_corpus
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
## coffee_source is already in your workspace
# Make a volatile corpus from coffee_source
coffee_corpus <- ___
# Print out coffee_corpus
___
# Print the 15th tweet in coffee_corpus
___
# Print the contents of the 15th tweet in coffee_corpus
___
# Now use content to review the plain text of the 10th tweet
___(___[[___]])