ComenzarEmpieza gratis

Crear un VCorpus a partir de un data frame

Si tus datos de texto están en un data frame, puedes usar DataframeSource() para tu análisis. El data frame que pases a DataframeSource() debe tener una estructura específica:

  • La columna uno debe llamarse doc_id y contener una cadena única para cada fila.
  • La columna dos debe llamarse text con codificación "UTF-8" (bastante estándar).
  • Cualquier otra columna, 3+, se considera metadatos y se conservará como tal.

Este ejercicio presenta meta() para extraer los metadatos asociados a cada documento. A menudo tus datos tendrán metadatos como autores, fechas, etiquetas de tema o lugares que pueden aportar contexto a tu análisis. Una vez que tu texto sea un corpus, puedes aplicar meta() para examinar la información adicional a nivel de documento.

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

Instrucciones del ejercicio

En tu espacio de trabajo hay un data frame sencillo llamado example_text con los nombres de columnas correctos y algunos metadatos. También está vec_corpus, que es un corpus volátil creado con VectorSource().

  • Crea df_source usando DataframeSource() con example_text.
  • Crea df_corpus convirtiendo df_source en un objeto de corpus volátil con VCorpus().
  • Imprime df_corpus. Fíjate en cuántos documentos contiene y en el número de puntos de metadatos retenidos a nivel de documento.
  • Usa meta() sobre df_corpus para imprimir los metadatos asociados a los documentos.
  • Examina el objeto precargado vec_corpus. Compara el número de documentos con df_corpus.
  • Usa meta() sobre vec_corpus para comparar los metadatos que encuentres entre vec_corpus y df_corpus.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create a DataframeSource from the example text
df_source <- ___

# Convert df_source to a volatile corpus
df_corpus <- ___

# Examine df_corpus
df_corpus

# Examine df_corpus metadata
___

# Compare the number of documents in the vector source
vec_corpus

# Compare metadata in the vector corpus
___
Editar y ejecutar código