IniziaInizia gratis

Ripasso su TM (II)

Ora creiamo una Document Term Matrix (DTM). In una DTM:

  • Ogni riga della matrice rappresenta un documento.
  • Ogni colonna è un token di parola univoco.
  • I valori della matrice corrispondono all’uso delle parole in un singolo documento.

La DTM è la base di molte analisi basate sul bag of words. Più avanti nel corso userai anche la correlata Term Document Matrix (TDM). Questa è la trasposta; cioè, le colonne rappresentano i documenti e le righe rappresentano i token di parola univoci.

Dovresti costruire una DTM dopo aver ripulito il corpus (usando clean_corpus()). Per farlo, richiama DocumentTermMatrix() sull’oggetto corpus.

tm_dtm <- DocumentTermMatrix(tm_clean)

Se ti serve un ripasso più approfondito, dai un’occhiata al corso Text Mining with Bag-of-Words in R. Speriamo che questi due esercizi ti abbiano preparato a dovere per iniziare il tuo percorso nell’analisi del sentiment!

Tieni presente che si tratta di dati reali da Twitter e, in quanto tali, c’è sempre il rischio che possano contenere volgarità o altri contenuti offensivi (in questo esercizio e in qualsiasi esercizio successivo che utilizzi dati reali da Twitter).

Questo esercizio fa parte del corso

Sentiment Analysis in R

Visualizza il corso

Istruzioni dell'esercizio

Abbiamo creato un oggetto VCorpus() chiamato clean_text contenente 1000 tweet che menzionano il caffè. I tweet sono stati ripuliti con i passaggi di pre-processing menzionati in precedenza e il tuo obiettivo è creare da essi una DTM.

  • Applica DocumentTermMatrix() al corpus clean_text per creare una DTM pesata per frequenza dei termini chiamata tf_dtm.
  • Trasforma l’oggetto DocumentTermMatrix() in una semplice matrice con as.matrix(). Chiama il nuovo oggetto tf_dtm_m.
  • Controlla le dimensioni della matrice usando dim().
  • Usa l’indicizzazione con parentesi quadre per visualizzare un sottoinsieme della matrice.
  • Seleziona le righe da 16 a 20 e le colonne da 2975 a 2985
  • Annota il valore di frequenza della parola "working."

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# clean_text is pre-defined
clean_text

# Create tf_dtm
tf_dtm <- ___

# Create tf_dtm_m
tf_dtm_m <- ___

# Dimensions of DTM matrix
___

# Subset part of tf_dtm_m for comparison
___[___, ___]
Modifica ed esegui il codice