Capturar metadatos en tm

Según lo que quieras lograr, quizá te interese conservar metadatos del documento al crear un corpus.

Para capturar metadatos a nivel de documento, los nombres y el orden de las columnas deben ser:

doc_id - una cadena única para cada documento
text - el texto que se va a analizar
... - cualquier otra columna se catalogará automáticamente como metadatos.

A veces tendrás que renombrar columnas para ajustarte a lo que espera DataframeSource(). La función names() te será útil para esto.

tweets existe en tu espacio de trabajo como un data frame con las columnas "num", "text", "screenName" y "created".

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

Instrucciones del ejercicio

Cambia el nombre de la primera columna de tweets a "doc_id".
Define el esquema del documento con DataframeSource() sobre el data frame reducido tweets.
Convierte la colección de documentos en un corpus volátil anidado dentro de la función personalizada clean_corpus().
Aplica content() al primer tuit con dobles corchetes, como text_corpus[[1]], para ver el texto plano ya limpiado.
Confirma que se capturaron todos los metadatos usando la función meta() en el primer documento con corchetes simples.

Recuerda: al acceder a parte de un corpus, ¡los corchetes dobles o simples marcan la diferencia! En este ejercicio, usarás corchetes dobles con content() y corchetes simples con meta().

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Rename columns
___(tweets)[1] <- "___"

# Set the schema: docs
docs <- ___(___)

# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))

# Examine the first doc content
___(text_corpus[[___]])

# Access the first doc metadata
___(text_corpus[___])

Editar y ejecutar código