Aan de slagGa gratis aan de slag

TM-opfrisser (I)

In de cursus Text Mining: Bag of Words heb je geleerd dat een corpus een verzameling teksten is, en je hebt functies bestudeerd om tekst voor te bewerken. Ter herhaling: een manier om een corpus te maken en op te schonen is met de onderstaande functies. Ook al is dit een andere cursus, sentimentanalyse is onderdeel van text mining, dus een opfrisser kan handig zijn.

In deze oefening is een aangepaste functie clean_corpus() gemaakt met standaard voorbewerkingsfuncties voor eenvoudiger gebruik.

clean_corpus() accepteert de output van VCorpus() en past schoonmaakfuncties toe. Bijvoorbeeld:

processed_corpus <- clean_corpus(my_corpus)

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in R

Cursus bekijken

Oefeninstructies

Je R-sessie heeft een tekstvector, tm_define, met twee kleine documenten en de functie clean_corpus().

  • Maak een object tm_vector door VectorSource() toe te passen op tm_define.
  • Maak tm_corpus met VCorpus() op tm_vector.
  • Gebruik content() om de inhoud van het eerste document in tm_corpus te bekijken.
    • Documenten in het corpus benader je met lijstsynthax, dus gebruik dubbele vierkante haken, bijv. [[1]].
  • Maak de corpus-tekst schoon met de aangepaste functie clean_corpus() op tm_corpus. Noem dit nieuwe object tm_clean.
  • Bekijk opnieuw het eerste document van het nieuwe object tm_clean om te zien hoe de tekst is veranderd nadat clean_corpus() is toegepast.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# clean_corpus(), tm_define are pre-defined
clean_corpus
tm_define

# Create a VectorSource
tm_vector <- ___

# Apply VCorpus
tm_corpus <- ___

# Examine the first document's contents
___(___[[___]])

# Clean the text
tm_clean <- ___

# Reexamine the contents of the first doc
___
Code bewerken en uitvoeren