Aplica pasos de preprocesado a un corpus
El paquete tm ofrece la función tm_map() para aplicar funciones de limpieza a todo un corpus, lo que facilita estos pasos.
tm_map() recibe dos argumentos: un corpus y una función de limpieza. Aquí, removeNumbers() pertenece al paquete tm.
corpus <- tm_map(corpus, removeNumbers)
Por compatibilidad, las funciones de base R y de qdap deben envolverse con content_transformer().
corpus <- tm_map(corpus, content_transformer(replace_abbreviation))
Puede que apliques las mismas funciones a varios corpus; usar una función personalizada como la que aparece en el editor te ahorrará tiempo (y líneas de código). clean_corpus() recibe un argumento, corpus, aplica en orden una serie de funciones de limpieza y devuelve el corpus actualizado.
El orden de los pasos de limpieza marca la diferencia. Por ejemplo, si primero removeNumbers() y luego replace_number(), ¡la segunda función no encontrará nada que cambiar! ¡Revisa, revisa y vuelve a revisar tus resultados!
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Alter the function code to match the instructions
clean_corpus <- function(corpus) {
# Remove punctuation
corpus <- tm_map(corpus, ___)
# Transform to lower case
corpus <- tm_map(corpus, ___)
# Add more stopwords
corpus <- tm_map(corpus, removeWords, words = c(stopwords("en"), "coffee", ___))
# Strip whitespace
___
return(corpus)
}