Aan de slagGa gratis aan de slag

Visualiseer niet-overeenkomende woorden

Stel dat je de woorden wilt visualiseren die niet overeenkomen. Hiervoor kun je ook comparison.cloud() gebruiken, en de stappen lijken sterk op elkaar met één belangrijk verschil.

Net als toen je zocht naar woorden die overeenkwamen, begin je met het samenvoegen van de tweets tot afzonderlijke corpora en combineer je die in hun eigen VCorpus()-object. Pas vervolgens een clean_corpus()-functie toe en organiseer dit in een TermDocumentMatrix.

Om bij te houden welke woorden bij coffee horen en welke bij chardonnay, kun je de kolomnamen van de TDM als volgt instellen:

colnames(all_tdm) <- c("chardonnay", "coffee")

Converteer het object ten slotte naar een matrix met as.matrix() voor gebruik in comparison.cloud(). Voor elke afzonderlijke corpus die je doorgeeft aan comparison.cloud() kun je een kleur opgeven, zoals colors = c("red", "yellow", "green"), zodat de onderdelen goed te onderscheiden zijn.

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Cursus bekijken

Oefeninstructies

all_corpus is vooraf in je werkruimte geladen.

  • Maak all_clean door de vooraf gedefinieerde functie clean_corpus toe te passen op all_corpus.
  • Maak all_tdm, een TermDocumentMatrix, op basis van all_clean.
  • Gebruik colnames() om elke afzonderlijke corpus binnen all_tdm te hernoemen. Noem de eerste kolom "coffee" en de tweede kolom "chardonnay".
  • Maak all_m door all_tdm om te zetten naar matrixvorm.
  • Maak een comparison.cloud() met all_m, met colors = c("orange", "blue") en max.words = 50.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Clean the corpus
___ <- ___(___)

# Create all_tdm
___ <- ___(___)

# Give the columns distinct names
___(___) <- ___

# Create all_m
___ <- ___(___)

# Create comparison cloud
comparison.cloud(___, ___ = c("___", "___"), max.words = ___)
Code bewerken en uitvoeren