Veelgebruikte schoonmaakfuncties uit tm

Nu je twee manieren kent om een corpus te maken, kun je je richten op het opschonen, ofwel het preprocessen, van de tekst. Eerst maak je een klein stukje tekst schoon; daarna ga je verder met grotere corpora.

Bij text mining met bag-of-words helpt opschonen om termen te groeperen. Zo kan het logisch zijn om de woorden "miner", "mining" en "mine" als één term te beschouwen. Welke preprocessing-stappen je precies neemt, hangt af van het project. De woorden in tweets verschillen bijvoorbeeld sterk van die in juridische documenten, dus het opschoonproces kan ook flink verschillen.

Veelgebruikte preprocessing-functies zijn:

tolower(): Zet alle tekens om naar kleine letters
removePunctuation(): Verwijder alle leestekens
removeNumbers(): Verwijder cijfers
stripWhitespace(): Verwijder overbodige spaties

tolower() is onderdeel van base R, terwijl de andere drie functies uit het tm-pakket komen. Vanaf nu laden we tm en qdap voor je wanneer dat nodig is. Elke keer dat we een nieuw pakket introduceren, laat je het de eerste keer zelf laden.

De variabele text, met een zin, staat in het script.

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Bekijk cursus

Oefeninstructies

Pas elk van de volgende functies toe op text en print de resultaten naar de console:

- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create the object: text
text <- "She woke up at       6 A.M. It\'s so early!  She was only 10% awake and began drinking coffee in front of her computer."

# Make lowercase
___

# Remove punctuation
____

# Remove numbers
___

# Remove whitespace
___

Code bewerken en uitvoeren