IniziaInizia gratis

Crea una term-document matrix

Hai quasi finito con il lavoro di base (non proprio esaltante) prima di passare a visualizzazioni e analisi più divertenti basate sui concetti che hai visto finora!

In questo esercizio eseguirai un processo simile, ma prendendo la trasposta della document-term matrix. In questo caso, la term-document matrix ha i termini nella prima colonna e i documenti in alto come nomi delle singole colonne.

La TDM è spesso la matrice usata per l’analisi del linguaggio. Questo perché di solito hai più termini che autori o documenti, e la vita è generalmente più semplice quando hai più righe che colonne. Un modo semplice per iniziare ad analizzare le informazioni è trasformare la matrice in una semplice matrice usando as.matrix() sulla TDM.

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza il corso

Istruzioni dell'esercizio

  • Crea coffee_tdm applicando TermDocumentMatrix() a clean_corp.
  • Crea coffee_m convertendo coffee_tdm in una matrice usando as.matrix().
  • Stampa in console le dimensioni di coffee_m. Nota il numero di righe e colonne.
  • Stampa il sottoinsieme di coffee_m che contiene i termini (righe) "star" e "starbucks" e i documenti (colonne) da 25 a 35.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create a term-document matrix from the corpus
coffee_tdm <- ___

# Print coffee_tdm data
coffee_tdm

# Convert coffee_tdm to a matrix
coffee_m <- ___

# Print the dimensions of the matrix
___

# Review a portion of the matrix
___[___, ___]
Modifica ed esegui il codice