ComenzarEmpieza gratis

Visualiza palabras diferentes

Imagina que quieres visualizar las palabras que no tienen en común. Para ello, también puedes usar comparison.cloud(), y los pasos son muy similares, con una diferencia principal.

Como cuando buscabas palabras en común, empiezas unificando los tuits en corpus distintos y combinándolos en su propio objeto VCorpus(). Después, aplica una función clean_corpus() y organízalo en un TermDocumentMatrix.

Para saber qué palabras pertenecen a coffee frente a chardonnay, puedes establecer los nombres de las columnas del TDM así:

colnames(all_tdm) <- c("chardonnay", "coffee")

Por último, convierte el objeto a matriz usando as.matrix() para emplearlo en comparison.cloud(). Para cada corpus distinto que pases a comparison.cloud() puedes especificar un color, como en colors = c("red", "yellow", "green"), para que las secciones se distingan.

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

Instrucciones del ejercicio

all_corpus está precargado en tu espacio de trabajo.

  • Crea all_clean aplicando la función predefinida clean_corpus a all_corpus.
  • Crea all_tdm, un TermDocumentMatrix, a partir de all_clean.
  • Usa colnames() para renombrar cada corpus dentro de all_tdm. Nombra la primera columna "coffee" y la segunda columna "chardonnay".
  • Crea all_m convirtiendo all_tdm a formato de matriz.
  • Crea un comparison.cloud() usando all_m, con colors = c("orange", "blue") y max.words = 50.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Clean the corpus
___ <- ___(___)

# Create all_tdm
___ <- ___(___)

# Give the columns distinct names
___(___) <- ___

# Create all_m
___ <- ___(___)

# Create comparison cloud
comparison.cloud(___, ___ = c("___", "___"), max.words = ___)
Editar y ejecutar código