TM-opfrisser (I)

In de cursus Text Mining: Bag of Words heb je geleerd dat een corpus een verzameling teksten is, en je hebt functies bestudeerd om tekst voor te bewerken. Ter herhaling: een manier om een corpus te maken en op te schonen is met de onderstaande functies. Ook al is dit een andere cursus, sentimentanalyse is onderdeel van text mining, dus een opfrisser kan handig zijn.

Zet een tekenvector om in een tekstbron met VectorSource().
Zet een tekstbron om in een corpus met VCorpus().
Verwijder ongewenste tekens uit het corpus met schoonmaakfuncties zoals removePunctuation() en stripWhitespace() uit tm, en replace_abbreviation() uit qdap.

In deze oefening is een aangepaste functie clean_corpus() gemaakt met standaard voorbewerkingsfuncties voor eenvoudiger gebruik.

clean_corpus() accepteert de output van VCorpus() en past schoonmaakfuncties toe. Bijvoorbeeld:

processed_corpus <- clean_corpus(my_corpus)

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in R

Bekijk cursus

Oefeninstructies

Je R-sessie heeft een tekstvector, tm_define, met twee kleine documenten en de functie clean_corpus().

Maak een object tm_vector door VectorSource() toe te passen op tm_define.
Maak tm_corpus met VCorpus() op tm_vector.
Gebruik content() om de inhoud van het eerste document in tm_corpus te bekijken.
- Documenten in het corpus benader je met lijstsynthax, dus gebruik dubbele vierkante haken, bijv. [[1]].
Maak de corpus-tekst schoon met de aangepaste functie clean_corpus() op tm_corpus. Noem dit nieuwe object tm_clean.
Bekijk opnieuw het eerste document van het nieuwe object tm_clean om te zien hoe de tekst is veranderd nadat clean_corpus() is toegepast.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# clean_corpus(), tm_define are pre-defined
clean_corpus
tm_define

# Create a VectorSource
tm_vector <- ___

# Apply VCorpus
tm_corpus <- ___

# Examine the first document's contents
___(___[[___]])

# Clean the text
tm_clean <- ___

# Reexamine the contents of the first doc
___

Code bewerken en uitvoeren