IniziaInizia gratis

Introduzione allo stemming delle parole e al completamento degli stems

Un altro utile passaggio di pre-elaborazione è lo word-stemming e il completamento dello stem. Lo stemming riduce le parole alla radice per uniformarle tra i documenti. Ad esempio, lo stem di "computational", "computers" e "computation" è "comput". Ma poiché "comput" non è una parola reale, vogliamo ricostruire le parole in modo che "computational", "computers" e "computation" facciano tutte riferimento a una parola riconoscibile, come "computer". Questo passaggio di ricostruzione si chiama completamento dello stem.

Il pacchetto tm fornisce la funzione stemDocument() per arrivare alla radice di una parola. Questa funzione accetta un vettore di caratteri e restituisce un vettore di caratteri, oppure accetta un PlainTextDocument e restituisce un PlainTextDocument.

Per esempio,

stemDocument(c("computational", "computers", "computation"))

restituisce "comput" "comput" "comput".

Userai stemCompletion() per ricostruire queste radici in un termine noto. stemCompletion() accetta un vettore di caratteri e un dizionario di completamento. Il dizionario di completamento può essere un vettore di caratteri o un oggetto Corpus. In ogni caso, nel nostro esempio il dizionario dovrebbe contenere la parola "computer", così tutte le occorrenze di "comput" possono essere ricostruite.

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza il corso

Istruzioni dell'esercizio

  • Crea un vettore chiamato complicate con le parole "complicated", "complication" e "complicatedly" in questo ordine.
  • Salva la versione con stemming di complicate in un oggetto chiamato stem_doc.
  • Crea comp_dict che contiene una sola parola, "complicate".
  • Crea complete_text applicando stemCompletion() a stem_doc. Ricompleta le parole usando comp_dict come corpus di riferimento.
  • Stampa complete_text nella console.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create complicate
complicate <- ___

# Perform word stemming: stem_doc
stem_doc <- ___

# Create the completion dictionary: comp_dict
comp_dict <- ___

# Perform stem completion: complete_text 
complete_text <- ___

# Print complete_text
complete_text
Modifica ed esegui il codice