CommencerCommencer gratuitement

Modifier les pondérations de fréquence

Jusqu’ici, vous avez simplement compté les termes dans les documents via DocumentTermMatrix ou TermDocumentMatrix. Dans cet exercice, vous allez découvrir la pondération TfIdf au lieu de la simple fréquence des termes. TfIdf signifie term frequency-inverse document frequency et s’emploie lorsqu’on dispose d’un grand corpus avec une diversité limitée de termes.

TfIdf compte les occurrences des termes (c’est-à-dire Tf), normalise la valeur par la longueur du document, puis la pénalise d’autant plus qu’un mot apparaît fréquemment dans l’ensemble des documents. C’est du bon sens : si un mot est courant, il est important, mais pas forcément révélateur. Cette pénalisation est mesurée par l’inverse document frequency (i.e., Idf).

Par exemple, l’examen de notes du service client peut inclure le terme « cu » comme abréviation de « customer ». Une note peut indiquer « the cu has a damaged package » et une autre « cu called with question about delivery ». Avec une pondération par fréquence documentaire, « cu » apparaît deux fois, on pourrait donc penser qu’il apporte de l’information. Cependant, avec TfIdf, « cu » est pénalisé car il apparaît dans tous les documents. En conséquence, « cu » n’est pas considéré comme original ; sa valeur est ramenée vers 0, ce qui permet à d’autres termes d’obtenir des valeurs plus élevées pour l’analyse.

Cet exercice fait partie du cours

Text mining avec sac de mots en R

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a TDM
tdm <- ___

# Convert it to a matrix
tdm_m <- ___

# Examine part of the matrix
tdm_m[___, ___]
Modifier et exécuter le code