ComenzarEmpieza gratis

Convierte el vector en un objeto VCorpus (2)

Ahora que hemos convertido nuestro vector en un objeto Source, lo pasamos a otra función de tm, VCorpus(), para crear nuestro corpus volátil. Bastante directo, ¿verdad?

El objeto VCorpus es una lista anidada o lista de listas. En cada índice del objeto VCorpus hay un objeto PlainTextDocument, que es una lista que contiene los datos de texto propiamente dichos (content) y algunos metadatos correspondientes (meta). Puede ayudarte visualizar un objeto VCorpus para hacerte una idea del conjunto.

Para revisar un único documento (el 10º), haz un subconjunto con dobles corchetes.

coffee_corpus[[10]]

Para revisar el texto en sí, indexa la lista dos veces. Para acceder a los metadatos del documento, como la marca de tiempo, cambia [1] por [2]. Otra forma de revisar el texto plano es con la función content(), que no necesita el segundo par de corchetes.

coffee_corpus[[10]][1]

content(coffee_corpus[[10]])

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

Instrucciones del ejercicio

  • Llama a la función VCorpus() sobre el objeto coffee_source para crear coffee_corpus.
  • Verifica que coffee_corpus es un objeto VCorpus imprimiéndolo en la consola.
  • Imprime en la consola el elemento 15 de coffee_corpus para comprobar que es un PlainTextDocument que contiene el contenido y los metadatos del tuit 15. Usa subconjunto con dobles corchetes.
  • Imprime el contenido del tuit 15 en coffee_corpus. Usa dobles corchetes para seleccionar el tuit adecuado y, a continuación, corchetes simples para extraer el contenido de ese tuit.
  • Imprime el content() del décimo tuit dentro de coffee_corpus

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

## coffee_source is already in your workspace

# Make a volatile corpus from coffee_source
coffee_corpus <- ___

# Print out coffee_corpus
___

# Print the 15th tweet in coffee_corpus
___

# Print the contents of the 15th tweet in coffee_corpus
___

# Now use content to review the plain text of the 10th tweet
___(___[[___]])
Editar y ejecutar código