Maak van de vector een VCorpus-object (1)
Herinner je dat je in de vorige oefening je tekstgegevens hebt geladen als een vector met de naam coffee_tweets. Je volgende stap is om deze vector met tekstgegevens om te zetten naar een corpus. Zoals je in de video hebt gezien, is een corpus een verzameling documenten, maar het is ook belangrijk om te weten dat R het binnen het tm-domein herkent als een gegevenstype.
Er zijn twee soorten corpushiërarchieën als gegevenstype: het permanent corpus, PCorpus, en het volatile corpus, VCorpus. Het verschil tussen beide draait in de kern om hoe de verzameling documenten op je computer wordt opgeslagen. In deze cursus gebruiken we het volatile corpus, dat in het RAM-geheugen van je computer staat in plaats van op schijf te worden opgeslagen, om geheugen efficiënter te gebruiken.
Om een volatile corpus te maken, moet R elk element in onze tekstvector, coffee_tweets, als een document interpreteren. Het tm-package biedt hiervoor zogenoemde Source-functies. In deze oefening gebruiken we een Source-functie genaamd VectorSource() omdat onze tekstgegevens in een vector staan. De uitvoer van deze functie heet een Source-object. Aan de slag!
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Oefeninstructies
- Laad het
tm-package. - Maak een Source-object van de
coffee_tweets-vector. Noem dit nieuwe objectcoffee_source.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load tm
___
# Make a vector source from coffee_tweets
___