Metadata vastleggen in tm

Afhankelijk van wat je wilt bereiken, wil je bij het maken van een corpus mogelijk metadata over het document bewaren.

Om metadata op documentniveau vast te leggen, moeten de kolomnamen en -volgorde als volgt zijn:

doc_id - een unieke tekenreeks voor elk document
text - de te analyseren tekst
... - alle andere kolommen worden automatisch vastgelegd als metadata.

Soms moet je kolommen hernoemen om te voldoen aan de verwachtingen van DataframeSource(). De functie names() is hierbij handig.

tweets staat in je werkruimte als een data frame met de kolommen "num", "text", "screenName" en "created".

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Bekijk cursus

Oefeninstructies

Hernoem de eerste kolom van tweets naar "doc_id".
Stel het documentschema in met DataframeSource() op het kleinere tweets-dataframe.
Maak van de documentencollectie een vluchtig corpus dat genest is in de aangepaste functie clean_corpus().
Pas content() toe op de eerste tweet met dubbele haken zoals text_corpus[[1]] om de opgeschoonde platte tekst te bekijken.
Controleer of alle metadata is vastgelegd met de functie meta() op het eerste document met enkele haken.

Onthoud: bij het benaderen van een deel van een corpus maken dubbele of enkele haken verschil! In deze oefening gebruik je dubbele haken met content() en enkele haken met meta().

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Rename columns
___(tweets)[1] <- "___"

# Set the schema: docs
docs <- ___(___)

# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))

# Examine the first doc content
___(text_corpus[[___]])

# Access the first doc metadata
___(text_corpus[___])

Code bewerken en uitvoeren