Crea una term-document matrix
Hai quasi finito con il lavoro di base (non proprio esaltante) prima di passare a visualizzazioni e analisi più divertenti basate sui concetti che hai visto finora!
In questo esercizio eseguirai un processo simile, ma prendendo la trasposta della document-term matrix. In questo caso, la term-document matrix ha i termini nella prima colonna e i documenti in alto come nomi delle singole colonne.
La TDM è spesso la matrice usata per l’analisi del linguaggio. Questo perché di solito hai più termini che autori o documenti, e la vita è generalmente più semplice quando hai più righe che colonne. Un modo semplice per iniziare ad analizzare le informazioni è trasformare la matrice in una semplice matrice usando as.matrix() sulla TDM.
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
- Crea
coffee_tdmapplicandoTermDocumentMatrix()aclean_corp. - Crea
coffee_mconvertendocoffee_tdmin una matrice usandoas.matrix(). - Stampa in console le dimensioni di
coffee_m. Nota il numero di righe e colonne. - Stampa il sottoinsieme di
coffee_mche contiene i termini (righe)"star"e"starbucks"e i documenti (colonne) da 25 a 35.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a term-document matrix from the corpus
coffee_tdm <- ___
# Print coffee_tdm data
coffee_tdm
# Convert coffee_tdm to a matrix
coffee_m <- ___
# Print the dimensions of the matrix
___
# Review a portion of the matrix
___[___, ___]