Come influenzano i bigrammi le word cloud?
Ora che hai creato una DTM di bigrammi, puoi esaminarla e ricreare una word cloud. Il nuovo metodo di tokenizzazione influenza non solo le matrici ma anche qualsiasi visualizzazione o modello basato sulle matrici.
Ricordi come "Marvin" e "Gaye" erano termini separati nella word cloud del chardonnay? Usando i bigrammi, la tokenizzazione cattura tutte le combinazioni di due parole. Osserva cosa succede alla word cloud in questo esercizio.
Questo esercizio usa str_subset da stringr. Tieni presente che altri corsi DataCamp trattano le espressioni regolari in maggior dettaglio. Come promemoria, l'espressione regolare ^ corrisponde alla posizione di inizio all'interno dei bigrammi dell'esercizio.
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
I tweet sul chardonnay sono stati puliti e organizzati in una DTM chiamata bigram_dtm.
- Crea
bigram_dtm_mconvertendobigram_dtmin una matrice. - Crea un oggetto
freqcon le frequenze delle parole applicandocolSums()abigram_dtm_m. - Estrai il vettore di caratteri delle combinazioni di parole con
names(freq)e assegna il risultato abi_words. - Passa
bi_wordsastr_subset()con il pattern di matching"^marvin"per rivedere tutti i bigrammi che iniziano con "marvin". - Traccia una semplice
wordcloud()passando a funzionebi_words,freqemax.words = 15.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create bigram_dtm_m
___ <- ___(___)
# Create freq
___ <- ___(___)
# Create bi_words
___ <- ___(___)
# Examine part of bi_words
___(___, ___)
# Plot a word cloud
___(___, ___, ___)