Introducción al stemming y la completación de raíces
Otro paso de preprocesado útil es el word stemming y la completación de raíces. El stemming reduce las palabras para unificarlas entre documentos. Por ejemplo, la raíz de "computational", "computers" y "computation" es "comput". Pero como "comput" no es una palabra real, queremos reconstruir las palabras para que "computational", "computers" y "computation" remitan a una palabra reconocible, como "computer". A esta reconstrucción se le llama completación de raíces.
El paquete tm proporciona la función stemDocument() para obtener la raíz de una palabra. Esta función puede recibir un vector de caracteres y devolver un vector de caracteres, o recibir un PlainTextDocument y devolver un PlainTextDocument.
Por ejemplo,
stemDocument(c("computational", "computers", "computation"))
devuelve "comput" "comput" "comput".
Usarás stemCompletion() para reconstruir estas raíces en un término conocido. stemCompletion() acepta un vector de caracteres y un diccionario de completado. El diccionario de completado puede ser un vector de caracteres o un objeto Corpus. En cualquier caso, el diccionario de completado para nuestro ejemplo tendría que contener la palabra "computer" para que todas las instancias de "comput" se puedan reconstruir.
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Instrucciones del ejercicio
- Crea un vector llamado
complicatecon las palabras "complicated", "complication" y "complicatedly" en ese orden. - Guarda la versión con stemming de
complicateen un objeto llamadostem_doc. - Crea
comp_dictque contenga una palabra, "complicate". - Crea
complete_textaplicandostemCompletion()astem_doc. Vuelve a completar las palabras usandocomp_dictcomo corpus de referencia. - Imprime
complete_texten la consola.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create complicate
complicate <- ___
# Perform word stemming: stem_doc
stem_doc <- ___
# Create the completion dictionary: comp_dict
comp_dict <- ___
# Perform stem completion: complete_text
complete_text <- ___
# Print complete_text
complete_text