Créer une matrice document-terme

Espérons que vous n’êtes pas trop fatigué après tout ce travail d’initiation au text mining ! Au cas où, restons sur le thème du café et allons chez Starbucks tout en construisant une matrice document-terme à partir de tweets sur le café.

À partir du fichier coffee.csv, nous avons appliqué des transformations courantes pour produire un corpus propre appelé clean_corp.

La matrice document-terme est utilisée lorsque vous souhaitez représenter chaque document par une ligne. C’est utile, par exemple, si vous comparez des auteurs ligne par ligne, ou si les données sont ordonnées chronologiquement et que vous voulez conserver la série temporelle. Le package tm utilise une classe « simple triplet matrix ». Cependant, il est souvent plus facile de manipuler et d’examiner l’objet en reclassant la DTM avec as.matrix().

Cet exercice fait partie du cours

<cours>Text mining avec sac de mots en R</cours>

Voir le cours

Instructions de l’exercice

Créez coffee_dtm en appliquant DocumentTermMatrix() à clean_corp.
Créez coffee_m, une version matricielle de coffee_dtm, à l’aide de as.matrix().
Affichez les dimensions de coffee_m dans la console avec la fonction dim(). Notez le nombre de lignes et de colonnes.
Affichez le sous-ensemble de coffee_m contenant les documents (lignes) 25 à 35 et les termes (colonnes) "star" et "starbucks".

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create the document-term matrix from the corpus
coffee_dtm <- ___

# Print out coffee_dtm data
coffee_dtm

# Convert coffee_dtm to a matrix
coffee_m <- ___

# Print the dimensions of coffee_m
___

# Review a portion of the matrix to get some Starbucks
___[___:___, c("star", "___")]

Modifier et exécuter le code