Crea una matrice documento-termine

Speriamo che tu non sia troppo stanco dopo tutto questo lavoro introduttivo di text mining! Per sicurezza, torniamo al tema del caffè e prendiamo qualcosa da Starbucks mentre costruiamo una matrice documento-termine a partire dai tweet sul caffè.

A partire dal file coffee.csv, abbiamo applicato trasformazioni comuni per ottenere un corpus pulito chiamato clean_corp.

La matrice documento-termine si usa quando vuoi rappresentare ogni documento come una riga. Questo è utile, ad esempio, se stai confrontando autori riga per riga, oppure se i dati sono disposti in ordine cronologico e vuoi preservare la serie temporale. Il pacchetto tm utilizza una classe "simple triplet matrix". Tuttavia, spesso è più semplice manipolare ed esaminare l'oggetto riclassificando la DTM con as.matrix().

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza corso

Istruzioni dell'esercizio

Crea coffee_dtm applicando DocumentTermMatrix() a clean_corp.
Crea coffee_m, una versione matrice di coffee_dtm, usando as.matrix().
Stampa in console le dimensioni di coffee_m usando la funzione dim(). Prendi nota del numero di righe e colonne.
Stampa il sottoinsieme di coffee_m che contiene i documenti (righe) dal 25 al 35 e i termini (colonne) "star" e "starbucks".

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create the document-term matrix from the corpus
coffee_dtm <- ___

# Print out coffee_dtm data
coffee_dtm

# Convert coffee_dtm to a matrix
coffee_m <- ___

# Print the dimensions of coffee_m
___

# Review a portion of the matrix to get some Starbucks
___[___:___, c("star", "___")]

Modifica ed esegui il codice