ComenzarEmpieza gratis

Introducción al stemming y la completación de raíces

Otro paso de preprocesado útil es el word stemming y la completación de raíces. El stemming reduce las palabras para unificarlas entre documentos. Por ejemplo, la raíz de "computational", "computers" y "computation" es "comput". Pero como "comput" no es una palabra real, queremos reconstruir las palabras para que "computational", "computers" y "computation" remitan a una palabra reconocible, como "computer". A esta reconstrucción se le llama completación de raíces.

El paquete tm proporciona la función stemDocument() para obtener la raíz de una palabra. Esta función puede recibir un vector de caracteres y devolver un vector de caracteres, o recibir un PlainTextDocument y devolver un PlainTextDocument.

Por ejemplo,

stemDocument(c("computational", "computers", "computation"))

devuelve "comput" "comput" "comput".

Usarás stemCompletion() para reconstruir estas raíces en un término conocido. stemCompletion() acepta un vector de caracteres y un diccionario de completado. El diccionario de completado puede ser un vector de caracteres o un objeto Corpus. En cualquier caso, el diccionario de completado para nuestro ejemplo tendría que contener la palabra "computer" para que todas las instancias de "comput" se puedan reconstruir.

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

Instrucciones del ejercicio

  • Crea un vector llamado complicate con las palabras "complicated", "complication" y "complicatedly" en ese orden.
  • Guarda la versión con stemming de complicate en un objeto llamado stem_doc.
  • Crea comp_dict que contenga una palabra, "complicate".
  • Crea complete_text aplicando stemCompletion() a stem_doc. Vuelve a completar las palabras usando comp_dict como corpus de referencia.
  • Imprime complete_text en la consola.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create complicate
complicate <- ___

# Perform word stemming: stem_doc
stem_doc <- ___

# Create the completion dictionary: comp_dict
comp_dict <- ___

# Perform stem completion: complete_text 
complete_text <- ___

# Print complete_text
complete_text
Editar y ejecutar código