Introduzione allo stemming delle parole e al completamento degli stems
Un altro utile passaggio di pre-elaborazione è lo word-stemming e il completamento dello stem. Lo stemming riduce le parole alla radice per uniformarle tra i documenti. Ad esempio, lo stem di "computational", "computers" e "computation" è "comput". Ma poiché "comput" non è una parola reale, vogliamo ricostruire le parole in modo che "computational", "computers" e "computation" facciano tutte riferimento a una parola riconoscibile, come "computer". Questo passaggio di ricostruzione si chiama completamento dello stem.
Il pacchetto tm fornisce la funzione stemDocument() per arrivare alla radice di una parola. Questa funzione accetta un vettore di caratteri e restituisce un vettore di caratteri, oppure accetta un PlainTextDocument e restituisce un PlainTextDocument.
Per esempio,
stemDocument(c("computational", "computers", "computation"))
restituisce "comput" "comput" "comput".
Userai stemCompletion() per ricostruire queste radici in un termine noto. stemCompletion() accetta un vettore di caratteri e un dizionario di completamento. Il dizionario di completamento può essere un vettore di caratteri o un oggetto Corpus. In ogni caso, nel nostro esempio il dizionario dovrebbe contenere la parola "computer", così tutte le occorrenze di "comput" possono essere ricostruite.
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
- Crea un vettore chiamato
complicatecon le parole "complicated", "complication" e "complicatedly" in questo ordine. - Salva la versione con stemming di
complicatein un oggetto chiamatostem_doc. - Crea
comp_dictche contiene una sola parola, "complicate". - Crea
complete_textapplicandostemCompletion()astem_doc. Ricompleta le parole usandocomp_dictcome corpus di riferimento. - Stampa
complete_textnella console.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create complicate
complicate <- ___
# Perform word stemming: stem_doc
stem_doc <- ___
# Create the completion dictionary: comp_dict
comp_dict <- ___
# Perform stem completion: complete_text
complete_text <- ___
# Print complete_text
complete_text