Visualiseer niet-overeenkomende woorden
Stel dat je de woorden wilt visualiseren die niet overeenkomen. Hiervoor kun je ook comparison.cloud() gebruiken, en de stappen lijken sterk op elkaar met één belangrijk verschil.
Net als toen je zocht naar woorden die overeenkwamen, begin je met het samenvoegen van de tweets tot afzonderlijke corpora en combineer je die in hun eigen VCorpus()-object. Pas vervolgens een clean_corpus()-functie toe en organiseer dit in een TermDocumentMatrix.
Om bij te houden welke woorden bij coffee horen en welke bij chardonnay, kun je de kolomnamen van de TDM als volgt instellen:
colnames(all_tdm) <- c("chardonnay", "coffee")
Converteer het object ten slotte naar een matrix met as.matrix() voor gebruik in comparison.cloud(). Voor elke afzonderlijke corpus die je doorgeeft aan comparison.cloud() kun je een kleur opgeven, zoals colors = c("red", "yellow", "green"), zodat de onderdelen goed te onderscheiden zijn.
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Oefeninstructies
all_corpus is vooraf in je werkruimte geladen.
- Maak
all_cleandoor de vooraf gedefinieerde functieclean_corpustoe te passen opall_corpus. - Maak
all_tdm, eenTermDocumentMatrix, op basis vanall_clean. - Gebruik
colnames()om elke afzonderlijke corpus binnenall_tdmte hernoemen. Noem de eerste kolom "coffee" en de tweede kolom "chardonnay". - Maak
all_mdoorall_tdmom te zetten naar matrixvorm. - Maak een
comparison.cloud()metall_m, metcolors = c("orange", "blue")enmax.words = 50.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Clean the corpus
___ <- ___(___)
# Create all_tdm
___ <- ___(___)
# Give the columns distinct names
___(___) <- ___
# Create all_m
___ <- ___(___)
# Create comparison cloud
comparison.cloud(___, ___ = c("___", "___"), max.words = ___)