Créer une matrice terme-document
Vous avez presque terminé le travail de base — pas forcément palpitant — avant de passer à des visualisations et analyses plus ludiques, en nous appuyant sur les notions que vous avez vues jusque-là !
Dans cet exercice, vous effectuez un processus similaire, mais en prenant la transposée de la matrice document-terme. Dans ce cas, la matrice terme-document a les termes dans la première colonne et les documents en haut, comme noms de colonnes individuels.
La TDM est souvent la matrice utilisée pour l’analyse linguistique. En effet, vous avez généralement plus de termes que d’auteurs ou de documents, et il est en général plus simple d’avoir plus de lignes que de colonnes. Une façon simple de commencer l’analyse consiste à convertir la TDM en matrice simple avec as.matrix().
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
- Créez
coffee_tdmen appliquantTermDocumentMatrix()àclean_corp. - Créez
coffee_men convertissantcoffee_tdmen matrice avecas.matrix(). - Affichez les dimensions de
coffee_mdans la console. Notez le nombre de lignes et de colonnes. - Affichez le sous-ensemble de
coffee_mcontenant les termes (lignes)"star"et"starbucks"et les documents (colonnes) de 25 à 35.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a term-document matrix from the corpus
coffee_tdm <- ___
# Print coffee_tdm data
coffee_tdm
# Convert coffee_tdm to a matrix
coffee_m <- ___
# Print the dimensions of the matrix
___
# Review a portion of the matrix
___[___, ___]