Maak van de vector een VCorpus-object (1)

Herinner je dat je in de vorige oefening je tekstgegevens hebt geladen als een vector met de naam coffee_tweets. Je volgende stap is om deze vector met tekstgegevens om te zetten naar een corpus. Zoals je in de video hebt gezien, is een corpus een verzameling documenten, maar het is ook belangrijk om te weten dat R het binnen het tm-domein herkent als een gegevenstype.

Er zijn twee soorten corpushiërarchieën als gegevenstype: het permanent corpus, PCorpus, en het volatile corpus, VCorpus. Het verschil tussen beide draait in de kern om hoe de verzameling documenten op je computer wordt opgeslagen. In deze cursus gebruiken we het volatile corpus, dat in het RAM-geheugen van je computer staat in plaats van op schijf te worden opgeslagen, om geheugen efficiënter te gebruiken.

Om een volatile corpus te maken, moet R elk element in onze tekstvector, coffee_tweets, als een document interpreteren. Het tm-package biedt hiervoor zogenoemde Source-functies. In deze oefening gebruiken we een Source-functie genaamd VectorSource() omdat onze tekstgegevens in een vector staan. De uitvoer van deze functie heet een Source-object. Aan de slag!

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Bekijk cursus

Oefeninstructies

Laad het tm-package.
Maak een Source-object van de coffee_tweets-vector. Noem dit nieuwe object coffee_source.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Load tm
___

# Make a vector source from coffee_tweets
___

Code bewerken en uitvoeren