Maak een document-termmatrix

Hopelijk ben je niet té moe na al dat basiswerk rond text mining! Voor de zekerheid duiken we nog even in de koffie en halen we wat Starbucks terwijl we een document-termmatrix bouwen op basis van coffee-tweets.

Vertrekkend van het bestand coffee.csv hebben we gangbare transformaties toegepast om een schoon corpus te maken, clean_corp.

De document-termmatrix gebruik je wanneer je elk document als een rij wilt voorstellen. Dat is handig als je bijvoorbeeld auteurs per rij wilt vergelijken, of als de gegevens chronologisch zijn en je de tijdreeks wilt behouden. Het tm-pakket gebruikt een "simple triplet matrix"-klasse. Vaak is het echter makkelijker om het object te bewerken en te verkennen door de DTM te herclassificeren met as.matrix()

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Bekijk cursus

Oefeninstructies

Maak coffee_dtm door DocumentTermMatrix() toe te passen op clean_corp.
Maak coffee_m, een matrixversie van coffee_dtm, met as.matrix().
Print de dimensies van coffee_m naar de console met de functie dim(). Let op het aantal rijen en kolommen.
Print de subset van coffee_m met documenten (rijen) 25 tot en met 35 en termen (kolommen) "star" en "starbucks".

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create the document-term matrix from the corpus
coffee_dtm <- ___

# Print out coffee_dtm data
coffee_dtm

# Convert coffee_dtm to a matrix
coffee_m <- ___

# Print the dimensions of coffee_m
___

# Review a portion of the matrix to get some Starbucks
___[___:___, c("star", "___")]

Code bewerken en uitvoeren