Visualizzare le parole diverse
Poniamo che tu voglia visualizzare le parole non in comune. Per farlo, puoi usare anche comparison.cloud(), e i passaggi sono molto simili, con una differenza principale.
Come quando cercavi parole in comune, inizi unificando i tweet in corpora distinti e combinandoli in un oggetto VCorpus(). Poi applica una funzione clean_corpus() e organizza il tutto in una TermDocumentMatrix.
Per tenere traccia di quali parole appartengono a coffee rispetto a chardonnay, puoi impostare i nomi delle colonne della TDM così:
colnames(all_tdm) <- c("chardonnay", "coffee")
Infine, converti l'oggetto in una matrice usando as.matrix() per utilizzarlo in comparison.cloud(). Per ogni corpus distinto passato a comparison.cloud() puoi specificare un colore, come in colors = c("red", "yellow", "green"), per rendere le sezioni distinguibili.
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
all_corpus è precaricato nel tuo workspace.
- Crea
all_cleanapplicando la funzione predefinitaclean_corpusaall_corpus. - Crea
all_tdm, unaTermDocumentMatrix, a partire daall_clean. - Usa
colnames()per rinominare ciascun corpus distinto all'interno diall_tdm. Dai alla prima colonna il nome "coffee" e alla seconda colonna il nome "chardonnay". - Crea
all_mconvertendoall_tdmin formato matrice. - Crea una
comparison.cloud()usandoall_m, concolors = c("orange", "blue")emax.words = 50.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Clean the corpus
___ <- ___(___)
# Create all_tdm
___ <- ___(___)
# Give the columns distinct names
___(___) <- ___
# Create all_m
___ <- ___(___)
# Create comparison cloud
comparison.cloud(___, ___ = c("___", "___"), max.words = ___)