Maak een term-documentmatrix
Je bent bijna klaar met het niet zo spannende basiswerk voordat we doorgaan naar leuke visualisaties en analyses op basis van de concepten die je tot nu toe hebt geleerd!
In deze oefening volg je een vergelijkbaar proces, maar neem je de transponering van de document-term-matrix. In dit geval heeft de term-documentmatrix termen in de eerste kolom en documenten bovenaan als afzonderlijke kolomnamen.
De TDM is vaak de matrix die wordt gebruikt voor taal- of tekstanalyse. Dat komt omdat je waarschijnlijk meer termen dan auteurs of documenten hebt, en het leven is over het algemeen makkelijker wanneer je meer rijen dan kolommen hebt. Een eenvoudige manier om te beginnen met analyseren is de TDM om te zetten naar een gewone matrix met as.matrix().
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Oefeninstructies
- Maak
coffee_tdmdoorTermDocumentMatrix()toe te passen opclean_corp. - Maak
coffee_mdoorcoffee_tdmom te zetten naar een matrix metas.matrix(). - Print de afmetingen van
coffee_mnaar de console. Let op het aantal rijen en kolommen. - Print de subset van
coffee_mmet termen (rijen)"star"en"starbucks"en documenten (kolommen) 25 tot en met 35.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a term-document matrix from the corpus
coffee_tdm <- ___
# Print coffee_tdm data
coffee_tdm
# Convert coffee_tdm to a matrix
coffee_m <- ___
# Print the dimensions of the matrix
___
# Review a portion of the matrix
___[___, ___]