Preprocesamiento de texto: stemming
La raíz de las palabras suele ser más importante que sus terminaciones, especialmente en el análisis de texto. El libro Animal Farm trata, evidentemente, sobre animales. Sin embargo, saber que el libro menciona animal's 248 veces y animal 107 veces quizá no te ayude en el análisis.
tidy_animal_farm contiene un tibble con las palabras de Animal Farm, tokenizadas y sin stop words. El siguiente paso es aplicar stemming a las palabras y explorar los resultados.
Este ejercicio forma parte del curso
Introducción al procesamiento del lenguaje natural en R
Instrucciones del ejercicio
- Usa
dplyrySnowballCpara hacer stemming de las palabras detidy_animal_farm. - Imprime las frecuencias antiguas de palabras de
tidy_animal_farm. - Imprime las nuevas frecuencias de palabras de
stemmed_animal_farm.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Perform stemming on tidy_animal_farm
stemmed_animal_farm <- tidy_animal_farm %>%
___(word = ___(___))
# Print the old word frequencies
___ %>%
___(word, sort = ___)
# Print the new word frequencies
___ %>%
___(word, sort = ___)