Crear un tibble a partir de un corpus
Para seguir explorando el corpus sobre datos de crudo que te pasó un compañero, has decidido crear una canalización para limpiar el texto de los documentos. En lugar de hacerlo con el paquete tm, optas por transformar el corpus en un tibble para poder usar las funciones unnest_tokens(), count() y anti_join() con las que ya estás familiarizado. El corpus crude contiene tanto los metadatos como el texto de cada documento.
Este ejercicio forma parte del curso
Introducción al procesamiento del lenguaje natural en R
Instrucciones del ejercicio
- Convierte el corpus en un tibble.
- Usa
namespara imprimir los nombres de las columnas. - Tokeniza (por palabra), cuenta y elimina las stop words de la columna
textdecrude_tibble.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create a tibble & Review
crude_tibble <- ___(crude)
___(crude_tibble)
crude_counts <- crude_tibble %>%
# Tokenize by word
___(___, text) %>%
# Count by word
___(word, sort = TRUE) %>%
# Remove stop words
___(stop_words)