ComenzarEmpieza gratis

Capturar metadatos en tm

Según lo que quieras lograr, quizá te interese conservar metadatos del documento al crear un corpus.

Para capturar metadatos a nivel de documento, los nombres y el orden de las columnas deben ser:

  1. doc_id - una cadena única para cada documento
  2. text - el texto que se va a analizar
  3. ... - cualquier otra columna se catalogará automáticamente como metadatos.

A veces tendrás que renombrar columnas para ajustarte a lo que espera DataframeSource(). La función names() te será útil para esto.

tweets existe en tu espacio de trabajo como un data frame con las columnas "num", "text", "screenName" y "created".

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

Instrucciones del ejercicio

  • Cambia el nombre de la primera columna de tweets a "doc_id".
  • Define el esquema del documento con DataframeSource() sobre el data frame reducido tweets.
  • Convierte la colección de documentos en un corpus volátil anidado dentro de la función personalizada clean_corpus().
  • Aplica content() al primer tuit con dobles corchetes, como text_corpus[[1]], para ver el texto plano ya limpiado.
  • Confirma que se capturaron todos los metadatos usando la función meta() en el primer documento con corchetes simples.

Recuerda: al acceder a parte de un corpus, ¡los corchetes dobles o simples marcan la diferencia! En este ejercicio, usarás corchetes dobles con content() y corchetes simples con meta().

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Rename columns
___(tweets)[1] <- "___"

# Set the schema: docs
docs <- ___(___)

# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))

# Examine the first doc content
___(text_corpus[[___]])

# Access the first doc metadata
___(text_corpus[___])
Editar y ejecutar código