Verken een R-corpus
Een van je collega’s heeft een corpus van 20 documenten over ruwe olie voorbereid, met de naam crude. Dit is slechts een steekproef van enkele duizenden artikelen die je volgende week zult ontvangen. Om je voor te bereiden op tekstanalyse op deze documenten, heb je besloten hun inhoud en metadata te verkennen. Onthoud dat in R een VCorpus zowel meta als content bevat voor elke tekst. In deze les ga je deze twee objecten verkennen.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in R
Oefeninstructies
- Print
crudeen bekijk de output. - Print de inhoud van het 10e artikel.
- Print de ID van het eerste artikel in
crude. - Maak met de meegeleverde for-loop een vector met de ID’s uit het corpus.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print out the corpus
print(___)
# Print the content of the 10th article
crude[[___]]$___
# Find the first ID
crude[[___]]$___$id
# Make a vector of IDs
ids <- c()
for(i in c(1:20)){
ids <- append(ids, crude[[___]]$___$id)
}