Maak een term-documentmatrix

Je bent bijna klaar met het niet zo spannende basiswerk voordat we doorgaan naar leuke visualisaties en analyses op basis van de concepten die je tot nu toe hebt geleerd!

In deze oefening volg je een vergelijkbaar proces, maar neem je de transponering van de document-term-matrix. In dit geval heeft de term-documentmatrix termen in de eerste kolom en documenten bovenaan als afzonderlijke kolomnamen.

De TDM is vaak de matrix die wordt gebruikt voor taal- of tekstanalyse. Dat komt omdat je waarschijnlijk meer termen dan auteurs of documenten hebt, en het leven is over het algemeen makkelijker wanneer je meer rijen dan kolommen hebt. Een eenvoudige manier om te beginnen met analyseren is de TDM om te zetten naar een gewone matrix met as.matrix().

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Bekijk cursus

Oefeninstructies

Maak coffee_tdm door TermDocumentMatrix() toe te passen op clean_corp.
Maak coffee_m door coffee_tdm om te zetten naar een matrix met as.matrix().
Print de afmetingen van coffee_m naar de console. Let op het aantal rijen en kolommen.
Print de subset van coffee_m met termen (rijen) "star" en "starbucks" en documenten (kolommen) 25 tot en met 35.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create a term-document matrix from the corpus
coffee_tdm <- ___

# Print coffee_tdm data
coffee_tdm

# Convert coffee_tdm to a matrix
coffee_m <- ___

# Print the dimensions of the matrix
___

# Review a portion of the matrix
___[___, ___]

Code bewerken en uitvoeren