Aan de slagGa gratis aan de slag

Verken een R-corpus

Een van je collega’s heeft een corpus van 20 documenten over ruwe olie voorbereid, met de naam crude. Dit is slechts een steekproef van enkele duizenden artikelen die je volgende week zult ontvangen. Om je voor te bereiden op tekstanalyse op deze documenten, heb je besloten hun inhoud en metadata te verkennen. Onthoud dat in R een VCorpus zowel meta als content bevat voor elke tekst. In deze les ga je deze twee objecten verkennen.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

Cursus bekijken

Oefeninstructies

  • Print crude en bekijk de output.
  • Print de inhoud van het 10e artikel.
  • Print de ID van het eerste artikel in crude.
  • Maak met de meegeleverde for-loop een vector met de ID’s uit het corpus.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Print out the corpus
print(___)

# Print the content of the 10th article
crude[[___]]$___

# Find the first ID
crude[[___]]$___$id

# Make a vector of IDs
ids <- c()
for(i in c(1:20)){
  ids <- append(ids, crude[[___]]$___$id)
}
Code bewerken en uitvoeren