Crear un VCorpus a partir de un data frame
Si tus datos de texto están en un data frame, puedes usar DataframeSource() para tu análisis. El data frame que pases a DataframeSource() debe tener una estructura específica:
- La columna uno debe llamarse
doc_idy contener una cadena única para cada fila. - La columna dos debe llamarse
textcon codificación "UTF-8" (bastante estándar). - Cualquier otra columna, 3+, se considera metadatos y se conservará como tal.
Este ejercicio presenta meta() para extraer los metadatos asociados a cada documento. A menudo tus datos tendrán metadatos como autores, fechas, etiquetas de tema o lugares que pueden aportar contexto a tu análisis. Una vez que tu texto sea un corpus, puedes aplicar meta() para examinar la información adicional a nivel de documento.
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Instrucciones del ejercicio
En tu espacio de trabajo hay un data frame sencillo llamado example_text con los nombres de columnas correctos y algunos metadatos. También está vec_corpus, que es un corpus volátil creado con VectorSource().
- Crea
df_sourceusandoDataframeSource()conexample_text. - Crea
df_corpusconvirtiendodf_sourceen un objeto de corpus volátil conVCorpus(). - Imprime
df_corpus. Fíjate en cuántos documentos contiene y en el número de puntos de metadatos retenidos a nivel de documento. - Usa
meta()sobredf_corpuspara imprimir los metadatos asociados a los documentos. - Examina el objeto precargado
vec_corpus. Compara el número de documentos condf_corpus. - Usa
meta()sobrevec_corpuspara comparar los metadatos que encuentres entrevec_corpusydf_corpus.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create a DataframeSource from the example text
df_source <- ___
# Convert df_source to a volatile corpus
df_corpus <- ___
# Examine df_corpus
df_corpus
# Examine df_corpus metadata
___
# Compare the number of documents in the vector source
vec_corpus
# Compare metadata in the vector corpus
___