Crea una matrice documento-termine
Speriamo che tu non sia troppo stanco dopo tutto questo lavoro introduttivo di text mining! Per sicurezza, torniamo al tema del caffè e prendiamo qualcosa da Starbucks mentre costruiamo una matrice documento-termine a partire dai tweet sul caffè.
A partire dal file coffee.csv, abbiamo applicato trasformazioni comuni per ottenere un corpus pulito chiamato clean_corp.
La matrice documento-termine si usa quando vuoi rappresentare ogni documento come una riga. Questo è utile, ad esempio, se stai confrontando autori riga per riga, oppure se i dati sono disposti in ordine cronologico e vuoi preservare la serie temporale. Il pacchetto tm utilizza una classe "simple triplet matrix". Tuttavia, spesso è più semplice manipolare ed esaminare l'oggetto riclassificando la DTM con as.matrix().
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
- Crea
coffee_dtmapplicandoDocumentTermMatrix()aclean_corp. - Crea
coffee_m, una versione matrice dicoffee_dtm, usandoas.matrix(). - Stampa in console le dimensioni di
coffee_musando la funzionedim(). Prendi nota del numero di righe e colonne. - Stampa il sottoinsieme di
coffee_mche contiene i documenti (righe) dal 25 al 35 e i termini (colonne)"star"e"starbucks".
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create the document-term matrix from the corpus
coffee_dtm <- ___
# Print out coffee_dtm data
coffee_dtm
# Convert coffee_dtm to a matrix
coffee_m <- ___
# Print the dimensions of coffee_m
___
# Review a portion of the matrix to get some Starbucks
___[___:___, c("star", "___")]