TM-opfrisser (II)
Laten we nu een Document Term Matrix (DTM) maken. In een DTM:
- Elke rij van de matrix stelt een document voor.
- Elke kolom is een unieke woordtoken.
- De waarden in de matrix komen overeen met het woordgebruik van een individueel document.
De DTM is de basis voor veel bag-of-words-analyses. Later in de cursus gebruik je ook de gerelateerde Term Document Matrix (TDM). Dit is de getransponeerde versie: kolommen stellen documenten voor en rijen zijn unieke woordtokens.
Je maakt een DTM nadat je de corpus hebt opgeschoond (met clean_corpus()). Doe dit door DocumentTermMatrix() aan te roepen op het corpusobject.
tm_dtm <- DocumentTermMatrix(tm_clean)
Als je een uitgebreidere opfrisser nodig hebt, bekijk dan de cursus Text Mining with Bag-of-Words in R. Hopelijk hebben deze twee oefeningen je voldoende voorbereid om met je sentimentanalyse aan de slag te gaan!
Wees je ervan bewust dat dit echte data van Twitter is. Er bestaat dus altijd een risico dat er scheldwoorden of andere aanstootgevende inhoud in voorkomt (in deze oefening en alle volgende oefeningen die ook echte Twitter-data gebruiken).
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in R
Oefeninstructies
We hebben een VCorpus()-object gemaakt met de naam clean_text, met 1000 tweets waarin koffie wordt genoemd. De tweets zijn opgeschoond met de eerder genoemde preprocessing-stappen en jouw doel is om hier een DTM van te maken.
- Pas
DocumentTermMatrix()toe op declean_text-corpus om een termfrequentie-gewogen DTM te maken met de naamtf_dtm. - Zet het
DocumentTermMatrix()-object om naar een gewone matrix metas.matrix(). Noem het nieuwe objecttf_dtm_m. - Controleer de afmetingen van de matrix met
dim(). - Gebruik indexering met vierkante haken om een subset van de matrix te bekijken.
- Selecteer rijen 16 tot en met 20, en kolommen 2975 tot en met 2985
- Noteer de frequentiewaarde van het woord "working."
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# clean_text is pre-defined
clean_text
# Create tf_dtm
tf_dtm <- ___
# Create tf_dtm_m
tf_dtm_m <- ___
# Dimensions of DTM matrix
___
# Subset part of tf_dtm_m for comparison
___[___, ___]