Capturar metadatos en tm
Según lo que quieras lograr, quizá te interese conservar metadatos del documento al crear un corpus.
Para capturar metadatos a nivel de documento, los nombres y el orden de las columnas deben ser:
doc_id- una cadena única para cada documentotext- el texto que se va a analizar...- cualquier otra columna se catalogará automáticamente como metadatos.
A veces tendrás que renombrar columnas para ajustarte a lo que espera DataframeSource(). La función names() te será útil para esto.
tweets existe en tu espacio de trabajo como un data frame con las columnas "num", "text", "screenName" y "created".
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Instrucciones del ejercicio
- Cambia el nombre de la primera columna de
tweetsa "doc_id". - Define el esquema del documento con
DataframeSource()sobre el data frame reducidotweets. - Convierte la colección de documentos en un corpus volátil anidado dentro de la función personalizada
clean_corpus(). - Aplica
content()al primer tuit con dobles corchetes, comotext_corpus[[1]], para ver el texto plano ya limpiado. - Confirma que se capturaron todos los metadatos usando la función
meta()en el primer documento con corchetes simples.
Recuerda: al acceder a parte de un corpus, ¡los corchetes dobles o simples marcan la diferencia! En este ejercicio, usarás corchetes dobles con content() y corchetes simples con meta().
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Rename columns
___(tweets)[1] <- "___"
# Set the schema: docs
docs <- ___(___)
# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))
# Examine the first doc content
___(text_corpus[[___]])
# Access the first doc metadata
___(text_corpus[___])