Aan de slagGa gratis aan de slag

Maak van de vector een VCorpus-object (2)

Nu we onze vector hebben omgezet naar een Source-object, geven we het door aan een andere tm-functie, VCorpus(), om onze volatile corpus te maken. Klinkt logisch, toch?

Het VCorpus-object is een geneste lijst of lijst-van-lijsten. Op elke index van het VCorpus-object staat een PlainTextDocument-object, dat een lijst is met de echte tekstgegevens (content) en bijbehorende metadata (meta). Het kan helpen om een VCorpus-object te visualiseren om het geheel te begrijpen.

Om één documentobject (het 10e) te bekijken, subset je met dubbele vierkante haken.

coffee_corpus[[10]]

Om de daadwerkelijke tekst te bekijken, indexeer je de lijst twee keer. Wil je de metadata van het document, zoals de timestamp, gebruik dan [2] in plaats van [1]. Een andere manier om de platte tekst te bekijken is met de functie content(), die de tweede set haken niet nodig heeft.

coffee_corpus[[10]][1]

content(coffee_corpus[[10]])

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Cursus bekijken

Oefeninstructies

  • Roep de functie VCorpus() aan op het object coffee_source om coffee_corpus te maken.
  • Controleer dat coffee_corpus een VCorpus-object is door het naar de console te printen.
  • Print het 15e element van coffee_corpus naar de console om te verifiëren dat het een PlainTextDocument is met de content en metadata van de 15e tweet. Gebruik subsetting met dubbele vierkante haken.
  • Print de content van de 15e tweet in coffee_corpus. Gebruik dubbele haken om de juiste tweet te selecteren, gevolgd door enkele haken om de content van die tweet te extraheren.
  • Print de content() van de 10e tweet binnen coffee_corpus

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

## coffee_source is already in your workspace

# Make a volatile corpus from coffee_source
coffee_corpus <- ___

# Print out coffee_corpus
___

# Print the 15th tweet in coffee_corpus
___

# Print the contents of the 15th tweet in coffee_corpus
___

# Now use content to review the plain text of the 10th tweet
___(___[[___]])
Code bewerken en uitvoeren