Maak een document-termmatrix
Hopelijk ben je niet té moe na al dat basiswerk rond text mining! Voor de zekerheid duiken we nog even in de koffie en halen we wat Starbucks terwijl we een document-termmatrix bouwen op basis van coffee-tweets.
Vertrekkend van het bestand coffee.csv hebben we gangbare transformaties toegepast om een schoon corpus te maken, clean_corp.
De document-termmatrix gebruik je wanneer je elk document als een rij wilt voorstellen. Dat is handig als je bijvoorbeeld auteurs per rij wilt vergelijken, of als de gegevens chronologisch zijn en je de tijdreeks wilt behouden. Het tm-pakket gebruikt een "simple triplet matrix"-klasse. Vaak is het echter makkelijker om het object te bewerken en te verkennen door de DTM te herclassificeren met as.matrix()
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Oefeninstructies
- Maak
coffee_dtmdoorDocumentTermMatrix()toe te passen opclean_corp. - Maak
coffee_m, een matrixversie vancoffee_dtm, metas.matrix(). - Print de dimensies van
coffee_mnaar de console met de functiedim(). Let op het aantal rijen en kolommen. - Print de subset van
coffee_mmet documenten (rijen) 25 tot en met 35 en termen (kolommen)"star"en"starbucks".
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create the document-term matrix from the corpus
coffee_dtm <- ___
# Print out coffee_dtm data
coffee_dtm
# Convert coffee_dtm to a matrix
coffee_m <- ___
# Print the dimensions of coffee_m
___
# Review a portion of the matrix to get some Starbucks
___[___:___, c("star", "___")]