Metadata vastleggen in tm
Afhankelijk van wat je wilt bereiken, wil je bij het maken van een corpus mogelijk metadata over het document bewaren.
Om metadata op documentniveau vast te leggen, moeten de kolomnamen en -volgorde als volgt zijn:
doc_id- een unieke tekenreeks voor elk documenttext- de te analyseren tekst...- alle andere kolommen worden automatisch vastgelegd als metadata.
Soms moet je kolommen hernoemen om te voldoen aan de verwachtingen van DataframeSource(). De functie names() is hierbij handig.
tweets staat in je werkruimte als een data frame met de kolommen "num", "text", "screenName" en "created".
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Oefeninstructies
- Hernoem de eerste kolom van
tweetsnaar "doc_id". - Stel het documentschema in met
DataframeSource()op het kleineretweets-dataframe. - Maak van de documentencollectie een vluchtig corpus dat genest is in de aangepaste functie
clean_corpus(). - Pas
content()toe op de eerste tweet met dubbele haken zoalstext_corpus[[1]]om de opgeschoonde platte tekst te bekijken. - Controleer of alle metadata is vastgelegd met de functie
meta()op het eerste document met enkele haken.
Onthoud: bij het benaderen van een deel van een corpus maken dubbele of enkele haken verschil! In deze oefening gebruik je dubbele haken met content() en enkele haken met meta().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Rename columns
___(tweets)[1] <- "___"
# Set the schema: docs
docs <- ___(___)
# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))
# Examine the first doc content
___(text_corpus[[___]])
# Access the first doc metadata
___(text_corpus[___])