Convierte el vector en un objeto VCorpus (2)
Ahora que hemos convertido nuestro vector en un objeto Source, lo pasamos a otra función de tm, VCorpus(), para crear nuestro corpus volátil. Bastante directo, ¿verdad?
El objeto VCorpus es una lista anidada o lista de listas. En cada índice del objeto VCorpus hay un objeto PlainTextDocument, que es una lista que contiene los datos de texto propiamente dichos (content) y algunos metadatos correspondientes (meta). Puede ayudarte visualizar un objeto VCorpus para hacerte una idea del conjunto.
Para revisar un único documento (el 10º), haz un subconjunto con dobles corchetes.
coffee_corpus[[10]]
Para revisar el texto en sí, indexa la lista dos veces. Para acceder a los metadatos del documento, como la marca de tiempo, cambia [1] por [2]. Otra forma de revisar el texto plano es con la función content(), que no necesita el segundo par de corchetes.
coffee_corpus[[10]][1]
content(coffee_corpus[[10]])
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Instrucciones del ejercicio
- Llama a la función
VCorpus()sobre el objetocoffee_sourcepara crearcoffee_corpus. - Verifica que
coffee_corpuses un objetoVCorpusimprimiéndolo en la consola. - Imprime en la consola el elemento 15 de
coffee_corpuspara comprobar que es unPlainTextDocumentque contiene el contenido y los metadatos del tuit 15. Usa subconjunto con dobles corchetes. - Imprime el contenido del tuit 15 en
coffee_corpus. Usa dobles corchetes para seleccionar el tuit adecuado y, a continuación, corchetes simples para extraer el contenido de ese tuit. - Imprime el
content()del décimo tuit dentro decoffee_corpus
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
## coffee_source is already in your workspace
# Make a volatile corpus from coffee_source
coffee_corpus <- ___
# Print out coffee_corpus
___
# Print the 15th tweet in coffee_corpus
___
# Print the contents of the 15th tweet in coffee_corpus
___
# Now use content to review the plain text of the 10th tweet
___(___[[___]])