Maak een VCorpus van een data frame
Als je tekstdata in een data frame staat, kun je DataframeSource() gebruiken voor je analyse. Het data frame dat je doorgeeft aan DataframeSource() moet een specifieke structuur hebben:
- Kolom één moet
doc_idheten en voor elke rij een unieke string bevatten. - Kolom twee moet
textheten met "UTF-8"-codering (vrij standaard). - Alle andere kolommen, 3+, worden gezien als metadata en blijven als zodanig behouden.
In deze oefening maak je kennis met meta() om de metadata op te halen die bij elk document hoort. Vaak bevat je data metadata zoals auteurs, datums, onderwerp-tags of locaties die je analyse kunnen verrijken. Zodra je tekst een corpus is, kun je meta() gebruiken om de extra documentniveau-informatie te bekijken.
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Oefeninstructies
In je werkruimte staat een eenvoudig data frame example_text met de juiste kolomnamen en wat metadata. Er is ook vec_corpus, een volatile corpus gemaakt met VectorSource()
- Maak
df_sourcemetDataframeSource()op basis vanexample_text. - Maak
df_corpusdoordf_sourceom te zetten naar een volatile corpusobject metVCorpus(). - Print
df_corpus. Let op hoeveel documenten het bevat en hoeveel documentniveau-metagegevens zijn behouden. - Gebruik
meta()opdf_corpusom de aan documenten gekoppelde metadata te printen. - Bekijk het vooraf geladen object
vec_corpus. Vergelijk het aantal documenten metdf_corpus. - Gebruik
meta()opvec_corpusom de aanwezige metadata te vergelijken tussenvec_corpusendf_corpus.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a DataframeSource from the example text
df_source <- ___
# Convert df_source to a volatile corpus
df_corpus <- ___
# Examine df_corpus
df_corpus
# Examine df_corpus metadata
___
# Compare the number of documents in the vector source
vec_corpus
# Compare metadata in the vector corpus
___