Stopwoorden en word clouds
Nu je in de text-miningmodus zit, met een lekker glas chardonnay erbij, gaan we dieper graven. In de laatste word cloud domineerde "chardonnay" het beeld. Het was zó dominant dat je geen andere interessante inzichten kon halen.
Laten we de stopwoorden aanpassen en "chardonnay" toevoegen, zodat we zien welke andere woorden veel voorkomen maar eerst werden overstemd.
In je werkruimte staat een opgeschoonde versie van chardonnay-tweets, maar laten we nu een paar minder informatieve termen verwijderen. Deze oefening gebruikt content() om je een specifieke tweet te laten zien ter vergelijking. Denk eraan dat je dubbele haken gebruikt om de corpuslijst te indexeren.
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Oefeninstructies
- Pas
content()toe op het 24e document inchardonnay_corp. - Voeg
"chardonnay"toe aan de Engelse stopwoorden en sla dit op alsstops. - Bekijk de laatste zes woorden in
stops. - Maak
cleaned_chardonnay_corpmettm_map()doorchardonnay_corp, de functieremoveWords()en tot slot de stopwoordenstopsdoor te geven. - Bekijk nu opnieuw de
contentvan de24-ste tweet om de resultaten te vergelijken.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Review a "cleaned" tweet
___(___)
# Add to stopwords
stops <- c(stopwords(kind = 'en'), '___')
# Review last 6 stopwords
tail(stops)
# Apply to a corpus
cleaned_chardonnay_corp <- ___(chardonnay_corp, ___, ___)
# Review a "cleaned" tweet again
content(cleaned_chardonnay_corp[[24]])