Aplica pasos de preprocesado a un corpus

El paquete tm ofrece la función tm_map() para aplicar funciones de limpieza a todo un corpus, lo que facilita estos pasos.

tm_map() recibe dos argumentos: un corpus y una función de limpieza. Aquí, removeNumbers() pertenece al paquete tm.

corpus <- tm_map(corpus, removeNumbers)

Por compatibilidad, las funciones de base R y de qdap deben envolverse con content_transformer().

corpus <- tm_map(corpus, content_transformer(replace_abbreviation))

Puede que apliques las mismas funciones a varios corpus; usar una función personalizada como la que aparece en el editor te ahorrará tiempo (y líneas de código). clean_corpus() recibe un argumento, corpus, aplica en orden una serie de funciones de limpieza y devuelve el corpus actualizado.

El orden de los pasos de limpieza marca la diferencia. Por ejemplo, si primero removeNumbers() y luego replace_number(), ¡la segunda función no encontrará nada que cambiar! ¡Revisa, revisa y vuelve a revisar tus resultados!

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Alter the function code to match the instructions
clean_corpus <- function(corpus) {
  # Remove punctuation
  corpus <- tm_map(corpus, ___)
  # Transform to lower case
  corpus <- tm_map(corpus, ___)
  # Add more stopwords
  corpus <- tm_map(corpus, removeWords, words = c(stopwords("en"), "coffee", ___))
  # Strip whitespace
  ___
  return(corpus)
}

Editar y ejecutar código