Opschonen met qdap
Het qdap-pakket biedt nog meer functies om tekst op te schonen. Elke functie is op zijn eigen manier handig en samen zijn ze extra krachtig.
bracketX(): Verwijder alle tekst tussen haakjes (bijv. "It's (so) cool" wordt "It's cool")replace_number(): Vervang cijfers door hun uitgeschreven woorden (bijv. "2" wordt "two")replace_abbreviation(): Vervang afkortingen door hun volledige vorm (bijv. "Sr" wordt "Senior")replace_contraction(): Zet samentrekkingen om naar de volledige woorden (bijv. "shouldn't" wordt "should not")replace_symbol(): Vervang veelvoorkomende symbolen door hun woord (bijv. "$" wordt "dollar")
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Oefeninstructies
Pas de volgende functies toe op het object text uit de vorige oefening:
bracketX()replace_number()replace_abbreviation()replace_contraction()replace_symbol()
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
## text is still loaded in your workspace
# Remove text within brackets
___
# Replace numbers with words
___
# Replace abbreviations
___
# Replace contractions
___
# Replace symbols with words
___