Frequentiegewichten aanpassen

Tot nu toe heb je simpelweg termen geteld in documenten in de DocumentTermMatrix of TermDocumentMatrix. In deze oefening leer je over TfIdf-weging in plaats van simpele termfrequentie. TfIdf staat voor term frequency-inverse document frequency en wordt gebruikt bij een grote corpus met beperkte termenvariatie.

TfIdf telt termen (dus Tf), normaliseert de waarde voor documentlengte en straft de waarde naarmate een woord vaker voorkomt in de documenten. Dat is logisch: als een woord veel voorkomt, is het wel belangrijk, maar niet verhelderend. Dit strafaspect wordt vastgelegd in de inverse documentfrequentie (Idf).

Een voorbeeld: in notities van de klantenservice kan de term "cu" worden gebruikt als afkorting voor "customer". In één notitie staat "the cu has a damaged package" en in een andere "cu called with question about delivery". Met documentfrequentie-weging komt "cu" twee keer voor, dus je zou verwachten dat het informatief is. In TfIdf wordt "cu" echter bestraft omdat het in alle documenten voorkomt. Daardoor wordt "cu" niet als nieuw beschouwd en wordt de waarde richting 0 verlaagd, zodat andere termen hogere waarden krijgen voor de analyse.

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create a TDM
tdm <- ___

# Convert it to a matrix
tdm_m <- ___

# Examine part of the matrix
tdm_m[___, ___]

Code bewerken en uitvoeren