Visualizzare le parole diverse

Poniamo che tu voglia visualizzare le parole non in comune. Per farlo, puoi usare anche comparison.cloud(), e i passaggi sono molto simili, con una differenza principale.

Come quando cercavi parole in comune, inizi unificando i tweet in corpora distinti e combinandoli in un oggetto VCorpus(). Poi applica una funzione clean_corpus() e organizza il tutto in una TermDocumentMatrix.

Per tenere traccia di quali parole appartengono a coffee rispetto a chardonnay, puoi impostare i nomi delle colonne della TDM così:

colnames(all_tdm) <- c("chardonnay", "coffee")

Infine, converti l'oggetto in una matrice usando as.matrix() per utilizzarlo in comparison.cloud(). Per ogni corpus distinto passato a comparison.cloud() puoi specificare un colore, come in colors = c("red", "yellow", "green"), per rendere le sezioni distinguibili.

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza corso

Istruzioni dell'esercizio

all_corpus è precaricato nel tuo workspace.

Crea all_clean applicando la funzione predefinita clean_corpus a all_corpus.
Crea all_tdm, una TermDocumentMatrix, a partire da all_clean.
Usa colnames() per rinominare ciascun corpus distinto all'interno di all_tdm. Dai alla prima colonna il nome "coffee" e alla seconda colonna il nome "chardonnay".
Crea all_m convertendo all_tdm in formato matrice.
Crea una comparison.cloud() usando all_m, con colors = c("orange", "blue") e max.words = 50.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Clean the corpus
___ <- ___(___)

# Create all_tdm
___ <- ___(___)

# Give the columns distinct names
___(___) <- ___

# Create all_m
___ <- ___(___)

# Create comparison cloud
comparison.cloud(___, ___ = c("___", "___"), max.words = ___)

Modifica ed esegui il codice