CommencerCommencer gratuitement

Créer une matrice terme-document

Vous avez presque terminé le travail de base — pas forcément palpitant — avant de passer à des visualisations et analyses plus ludiques, en nous appuyant sur les notions que vous avez vues jusque-là !

Dans cet exercice, vous effectuez un processus similaire, mais en prenant la transposée de la matrice document-terme. Dans ce cas, la matrice terme-document a les termes dans la première colonne et les documents en haut, comme noms de colonnes individuels.

La TDM est souvent la matrice utilisée pour l’analyse linguistique. En effet, vous avez généralement plus de termes que d’auteurs ou de documents, et il est en général plus simple d’avoir plus de lignes que de colonnes. Une façon simple de commencer l’analyse consiste à convertir la TDM en matrice simple avec as.matrix().

Cet exercice fait partie du cours

Text mining avec sac de mots en R

Afficher le cours

Instructions

  • Créez coffee_tdm en appliquant TermDocumentMatrix() à clean_corp.
  • Créez coffee_m en convertissant coffee_tdm en matrice avec as.matrix().
  • Affichez les dimensions de coffee_m dans la console. Notez le nombre de lignes et de colonnes.
  • Affichez le sous-ensemble de coffee_m contenant les termes (lignes) "star" et "starbucks" et les documents (colonnes) de 25 à 35.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a term-document matrix from the corpus
coffee_tdm <- ___

# Print coffee_tdm data
coffee_tdm

# Convert coffee_tdm to a matrix
coffee_m <- ___

# Print the dimensions of the matrix
___

# Review a portion of the matrix
___[___, ___]
Modifier et exécuter le code