Créer une matrice document-terme
Espérons que vous n’êtes pas trop fatigué après tout ce travail d’initiation au text mining ! Au cas où, restons sur le thème du café et allons chez Starbucks tout en construisant une matrice document-terme à partir de tweets sur le café.
À partir du fichier coffee.csv, nous avons appliqué des transformations courantes pour produire un corpus propre appelé clean_corp.
La matrice document-terme est utilisée lorsque vous souhaitez représenter chaque document par une ligne. C’est utile, par exemple, si vous comparez des auteurs ligne par ligne, ou si les données sont ordonnées chronologiquement et que vous voulez conserver la série temporelle. Le package tm utilise une classe « simple triplet matrix ». Cependant, il est souvent plus facile de manipuler et d’examiner l’objet en reclassant la DTM avec as.matrix().
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
- Créez
coffee_dtmen appliquantDocumentTermMatrix()àclean_corp. - Créez
coffee_m, une version matricielle decoffee_dtm, à l’aide deas.matrix(). - Affichez les dimensions de
coffee_mdans la console avec la fonctiondim(). Notez le nombre de lignes et de colonnes. - Affichez le sous-ensemble de
coffee_mcontenant les documents (lignes) 25 à 35 et les termes (colonnes)"star"et"starbucks".
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create the document-term matrix from the corpus
coffee_dtm <- ___
# Print out coffee_dtm data
coffee_dtm
# Convert coffee_dtm to a matrix
coffee_m <- ___
# Print the dimensions of coffee_m
___
# Review a portion of the matrix to get some Starbucks
___[___:___, c("star", "___")]