ComenzarEmpieza gratis

Preprocesamiento de texto: stemming

La raíz de las palabras suele ser más importante que sus terminaciones, especialmente en el análisis de texto. El libro Animal Farm trata, evidentemente, sobre animales. Sin embargo, saber que el libro menciona animal's 248 veces y animal 107 veces quizá no te ayude en el análisis.

tidy_animal_farm contiene un tibble con las palabras de Animal Farm, tokenizadas y sin stop words. El siguiente paso es aplicar stemming a las palabras y explorar los resultados.

Este ejercicio forma parte del curso

Introducción al procesamiento del lenguaje natural en R

Ver curso

Instrucciones del ejercicio

  • Usa dplyr y SnowballC para hacer stemming de las palabras de tidy_animal_farm.
  • Imprime las frecuencias antiguas de palabras de tidy_animal_farm.
  • Imprime las nuevas frecuencias de palabras de stemmed_animal_farm.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Perform stemming on tidy_animal_farm
stemmed_animal_farm <- tidy_animal_farm %>%
  ___(word = ___(___))

# Print the old word frequencies 
___ %>%
  ___(word, sort = ___)

# Print the new word frequencies
___ %>%
  ___(word, sort = ___)
Editar y ejecutar código