TM-opfrisser (II)

Laten we nu een Document Term Matrix (DTM) maken. In een DTM:

Elke rij van de matrix stelt een document voor.
Elke kolom is een unieke woordtoken.
De waarden in de matrix komen overeen met het woordgebruik van een individueel document.

De DTM is de basis voor veel bag-of-words-analyses. Later in de cursus gebruik je ook de gerelateerde Term Document Matrix (TDM). Dit is de getransponeerde versie: kolommen stellen documenten voor en rijen zijn unieke woordtokens.

Je maakt een DTM nadat je de corpus hebt opgeschoond (met clean_corpus()). Doe dit door DocumentTermMatrix() aan te roepen op het corpusobject.

tm_dtm <- DocumentTermMatrix(tm_clean)

Als je een uitgebreidere opfrisser nodig hebt, bekijk dan de cursus Text Mining with Bag-of-Words in R. Hopelijk hebben deze twee oefeningen je voldoende voorbereid om met je sentimentanalyse aan de slag te gaan!

Wees je ervan bewust dat dit echte data van Twitter is. Er bestaat dus altijd een risico dat er scheldwoorden of andere aanstootgevende inhoud in voorkomt (in deze oefening en alle volgende oefeningen die ook echte Twitter-data gebruiken).

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in R

Bekijk cursus

Oefeninstructies

We hebben een VCorpus()-object gemaakt met de naam clean_text, met 1000 tweets waarin koffie wordt genoemd. De tweets zijn opgeschoond met de eerder genoemde preprocessing-stappen en jouw doel is om hier een DTM van te maken.

Pas DocumentTermMatrix() toe op de clean_text-corpus om een termfrequentie-gewogen DTM te maken met de naam tf_dtm.
Zet het DocumentTermMatrix()-object om naar een gewone matrix met as.matrix(). Noem het nieuwe object tf_dtm_m.
Controleer de afmetingen van de matrix met dim().
Gebruik indexering met vierkante haken om een subset van de matrix te bekijken.
Selecteer rijen 16 tot en met 20, en kolommen 2975 tot en met 2985
Noteer de frequentiewaarde van het woord "working."

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# clean_text is pre-defined
clean_text

# Create tf_dtm
tf_dtm <- ___

# Create tf_dtm_m
tf_dtm_m <- ___

# Dimensions of DTM matrix
___

# Subset part of tf_dtm_m for comparison
___[___, ___]

Code bewerken en uitvoeren