ComenzarEmpieza gratis

Crear un tibble a partir de un corpus

Para seguir explorando el corpus sobre datos de crudo que te pasó un compañero, has decidido crear una canalización para limpiar el texto de los documentos. En lugar de hacerlo con el paquete tm, optas por transformar el corpus en un tibble para poder usar las funciones unnest_tokens(), count() y anti_join() con las que ya estás familiarizado. El corpus crude contiene tanto los metadatos como el texto de cada documento.

Este ejercicio forma parte del curso

Introducción al procesamiento del lenguaje natural en R

Ver curso

Instrucciones del ejercicio

  • Convierte el corpus en un tibble.
  • Usa names para imprimir los nombres de las columnas.
  • Tokeniza (por palabra), cuenta y elimina las stop words de la columna text de crude_tibble.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create a tibble & Review
crude_tibble <- ___(crude)
___(crude_tibble)

crude_counts <- crude_tibble %>%
  # Tokenize by word 
  ___(___, text) %>%
  # Count by word
  ___(word, sort = TRUE) %>%
  # Remove stop words
  ___(stop_words)
Editar y ejecutar código