Aan de slagGa gratis aan de slag

Maak een VCorpus van een data frame

Als je tekstdata in een data frame staat, kun je DataframeSource() gebruiken voor je analyse. Het data frame dat je doorgeeft aan DataframeSource() moet een specifieke structuur hebben:

  • Kolom één moet doc_id heten en voor elke rij een unieke string bevatten.
  • Kolom twee moet text heten met "UTF-8"-codering (vrij standaard).
  • Alle andere kolommen, 3+, worden gezien als metadata en blijven als zodanig behouden.

In deze oefening maak je kennis met meta() om de metadata op te halen die bij elk document hoort. Vaak bevat je data metadata zoals auteurs, datums, onderwerp-tags of locaties die je analyse kunnen verrijken. Zodra je tekst een corpus is, kun je meta() gebruiken om de extra documentniveau-informatie te bekijken.

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Cursus bekijken

Oefeninstructies

In je werkruimte staat een eenvoudig data frame example_text met de juiste kolomnamen en wat metadata. Er is ook vec_corpus, een volatile corpus gemaakt met VectorSource()

  • Maak df_source met DataframeSource() op basis van example_text.
  • Maak df_corpus door df_source om te zetten naar een volatile corpusobject met VCorpus().
  • Print df_corpus. Let op hoeveel documenten het bevat en hoeveel documentniveau-metagegevens zijn behouden.
  • Gebruik meta() op df_corpus om de aan documenten gekoppelde metadata te printen.
  • Bekijk het vooraf geladen object vec_corpus. Vergelijk het aantal documenten met df_corpus.
  • Gebruik meta() op vec_corpus om de aanwezige metadata te vergelijken tussen vec_corpus en df_corpus.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a DataframeSource from the example text
df_source <- ___

# Convert df_source to a volatile corpus
df_corpus <- ___

# Examine df_corpus
df_corpus

# Examine df_corpus metadata
___

# Compare the number of documents in the vector source
vec_corpus

# Compare metadata in the vector corpus
___
Code bewerken en uitvoeren