ComeçarComece de graça

Visualizar palavras diferentes

Suponha que você queira visualizar as palavras que não são comuns. Para isso, você também pode usar comparison.cloud(), e os passos são bem parecidos, com uma diferença principal.

Assim como quando você buscou palavras em comum, você começa unificando os tweets em corpora distintos e combinando-os em um objeto VCorpus(). Em seguida, aplique a função clean_corpus() e organize em um TermDocumentMatrix.

Para acompanhar quais palavras pertencem a coffee versus chardonnay, você pode definir os nomes das colunas da TDM assim:

colnames(all_tdm) <- c("chardonnay", "coffee")

Por fim, converta o objeto para uma matriz usando as.matrix() para usar em comparison.cloud(). Para cada corpus distinto passado para comparison.cloud(), você pode especificar uma cor, como em colors = c("red", "yellow", "green"), para deixar as seções distinguíveis.

Este exercício faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercício

all_corpus já está carregado no seu workspace.

  • Crie all_clean aplicando a função predefinida clean_corpus a all_corpus.
  • Crie all_tdm, um TermDocumentMatrix, a partir de all_clean.
  • Use colnames() para renomear cada corpus distinto dentro de all_tdm. Dê o nome "coffee" à primeira coluna e "chardonnay" à segunda coluna.
  • Crie all_m convertendo all_tdm para o formato de matriz.
  • Crie uma comparison.cloud() usando all_m, com colors = c("orange", "blue") e max.words = 50.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Clean the corpus
___ <- ___(___)

# Create all_tdm
___ <- ___(___)

# Give the columns distinct names
___(___) <- ___

# Create all_m
___ <- ___(___)

# Create comparison cloud
comparison.cloud(___, ___ = c("___", "___"), max.words = ___)
Editar e executar o código