IniziaInizia gratis

Come influenzano i bigrammi le word cloud?

Ora che hai creato una DTM di bigrammi, puoi esaminarla e ricreare una word cloud. Il nuovo metodo di tokenizzazione influenza non solo le matrici ma anche qualsiasi visualizzazione o modello basato sulle matrici.

Ricordi come "Marvin" e "Gaye" erano termini separati nella word cloud del chardonnay? Usando i bigrammi, la tokenizzazione cattura tutte le combinazioni di due parole. Osserva cosa succede alla word cloud in questo esercizio.

Questo esercizio usa str_subset da stringr. Tieni presente che altri corsi DataCamp trattano le espressioni regolari in maggior dettaglio. Come promemoria, l'espressione regolare ^ corrisponde alla posizione di inizio all'interno dei bigrammi dell'esercizio.

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza il corso

Istruzioni dell'esercizio

I tweet sul chardonnay sono stati puliti e organizzati in una DTM chiamata bigram_dtm.

  • Crea bigram_dtm_m convertendo bigram_dtm in una matrice.
  • Crea un oggetto freq con le frequenze delle parole applicando colSums() a bigram_dtm_m.
  • Estrai il vettore di caratteri delle combinazioni di parole con names(freq) e assegna il risultato a bi_words.
  • Passa bi_words a str_subset() con il pattern di matching "^marvin" per rivedere tutti i bigrammi che iniziano con "marvin".
  • Traccia una semplice wordcloud() passando a funzione bi_words, freq e max.words = 15.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create bigram_dtm_m
___ <- ___(___)

# Create freq
___ <- ___(___)

# Create bi_words
___ <- ___(___)

# Examine part of bi_words
___(___, ___)

# Plot a word cloud
___(___, ___, ___)
Modifica ed esegui il codice