Tokenización: oraciones
Animal Farm es un libro muy usado por profes de inglés en secundaria para asignar a su alumnado. Has decidido explorar el texto y preparar estadísticas descriptivas para que las y los docentes las usen al asignar este libro. Ya sabes que tiene 10 capítulos, pero también puedes usar la tokenización para contar el número de oraciones, palabras e incluso párrafos. En este ejercicio, utilizarás las técnicas de tokenización vistas en el video para dividir Animal Farm en oraciones y contarlas por capítulo.
Este ejercicio forma parte del curso
Introducción al procesamiento del lenguaje natural en R
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Split the text_column into sentences
animal_farm %>%
___(output = "sentences", input = text_column, token = ___)