TM-opfrisser (I)
In de cursus Text Mining: Bag of Words heb je geleerd dat een corpus een verzameling teksten is, en je hebt functies bestudeerd om tekst voor te bewerken. Ter herhaling: een manier om een corpus te maken en op te schonen is met de onderstaande functies. Ook al is dit een andere cursus, sentimentanalyse is onderdeel van text mining, dus een opfrisser kan handig zijn.
- Zet een tekenvector om in een tekstbron met
VectorSource(). - Zet een tekstbron om in een corpus met
VCorpus(). - Verwijder ongewenste tekens uit het corpus met schoonmaakfuncties zoals
removePunctuation()enstripWhitespace()uittm, enreplace_abbreviation()uitqdap.
In deze oefening is een aangepaste functie clean_corpus() gemaakt met standaard voorbewerkingsfuncties voor eenvoudiger gebruik.
clean_corpus() accepteert de output van VCorpus() en past schoonmaakfuncties toe. Bijvoorbeeld:
processed_corpus <- clean_corpus(my_corpus)
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in R
Oefeninstructies
Je R-sessie heeft een tekstvector, tm_define, met twee kleine documenten en de functie clean_corpus().
- Maak een object
tm_vectordoorVectorSource()toe te passen optm_define. - Maak
tm_corpusmetVCorpus()optm_vector. - Gebruik
content()om de inhoud van het eerste document intm_corpuste bekijken.- Documenten in het corpus benader je met lijstsynthax, dus gebruik dubbele vierkante haken, bijv.
[[1]].
- Documenten in het corpus benader je met lijstsynthax, dus gebruik dubbele vierkante haken, bijv.
- Maak de corpus-tekst schoon met de aangepaste functie
clean_corpus()optm_corpus. Noem dit nieuwe objecttm_clean. - Bekijk opnieuw het eerste document van het nieuwe object
tm_cleanom te zien hoe de tekst is veranderd nadatclean_corpus()is toegepast.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# clean_corpus(), tm_define are pre-defined
clean_corpus
tm_define
# Create a VectorSource
tm_vector <- ___
# Apply VCorpus
tm_corpus <- ___
# Examine the first document's contents
___(___[[___]])
# Clean the text
tm_clean <- ___
# Reexamine the contents of the first doc
___