Aan de slagGa gratis aan de slag

Stopwoorden en word clouds

Nu je in de text-miningmodus zit, met een lekker glas chardonnay erbij, gaan we dieper graven. In de laatste word cloud domineerde "chardonnay" het beeld. Het was zó dominant dat je geen andere interessante inzichten kon halen.

Laten we de stopwoorden aanpassen en "chardonnay" toevoegen, zodat we zien welke andere woorden veel voorkomen maar eerst werden overstemd.

In je werkruimte staat een opgeschoonde versie van chardonnay-tweets, maar laten we nu een paar minder informatieve termen verwijderen. Deze oefening gebruikt content() om je een specifieke tweet te laten zien ter vergelijking. Denk eraan dat je dubbele haken gebruikt om de corpuslijst te indexeren.

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Cursus bekijken

Oefeninstructies

  • Pas content() toe op het 24e document in chardonnay_corp.
  • Voeg "chardonnay" toe aan de Engelse stopwoorden en sla dit op als stops.
  • Bekijk de laatste zes woorden in stops.
  • Maak cleaned_chardonnay_corp met tm_map() door chardonnay_corp, de functie removeWords() en tot slot de stopwoorden stops door te geven.
  • Bekijk nu opnieuw de content van de 24-ste tweet om de resultaten te vergelijken.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Review a "cleaned" tweet
___(___)

# Add to stopwords
stops <- c(stopwords(kind = 'en'), '___')

# Review last 6 stopwords 
tail(stops)

# Apply to a corpus
cleaned_chardonnay_corp <- ___(chardonnay_corp, ___, ___)

# Review a "cleaned" tweet again
content(cleaned_chardonnay_corp[[24]])
Code bewerken en uitvoeren