Aan de slagGa gratis aan de slag

Introductie tot woordstammen en stem completion

Nog een nuttige stap in de preprocessing is word-stemming en stem completion. Met word stemming breng je woorden terug tot hun stam om consistentie over documenten te krijgen. Zo is de stam van "computational", "computers" en "computation" "comput". Maar omdat "comput" geen echt woord is, willen we de woorden reconstrueren zodat "computational", "computers" en "computation" allemaal verwijzen naar een herkenbaar woord, zoals "computer". Deze reconstructiestap heet stem completion.

Het tm-pakket biedt de functie stemDocument() om de stam van een woord te krijgen. Deze functie neemt ofwel een character vector en geeft een character vector terug, of neemt een PlainTextDocument en geeft een PlainTextDocument terug.

Bijvoorbeeld,

stemDocument(c("computational", "computers", "computation"))

geeft "comput" "comput" "comput" terug.

Je gebruikt stemCompletion() om deze woordstammen weer op te bouwen tot een bekend woord. stemCompletion() accepteert een character vector en een completion dictionary. De completion dictionary kan een character vector of een Corpus-object zijn. In beide gevallen moet de completion dictionary voor ons voorbeeld het woord "computer" bevatten, zodat alle instanties van "comput" gereconstrueerd kunnen worden.

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Cursus bekijken

Oefeninstructies

  • Maak een vector complicate met de woorden "complicated", "complication" en "complicatedly" in die volgorde.
  • Sla de gestemde versie van complicate op in een object stem_doc.
  • Maak comp_dict dat één woord bevat: "complicate".
  • Maak complete_text door stemCompletion() toe te passen op stem_doc. Vul de woorden opnieuw aan met comp_dict als referentiecorpus.
  • Print complete_text naar de console.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create complicate
complicate <- ___

# Perform word stemming: stem_doc
stem_doc <- ___

# Create the completion dictionary: comp_dict
comp_dict <- ___

# Perform stem completion: complete_text 
complete_text <- ___

# Print complete_text
complete_text
Code bewerken en uitvoeren