Visualizar palavras diferentes
Suponha que você queira visualizar as palavras que não são comuns. Para isso, você também pode usar comparison.cloud(), e os passos são bem parecidos, com uma diferença principal.
Assim como quando você buscou palavras em comum, você começa unificando os tweets em corpora distintos e combinando-os em um objeto VCorpus(). Em seguida, aplique a função clean_corpus() e organize em um TermDocumentMatrix.
Para acompanhar quais palavras pertencem a coffee versus chardonnay, você pode definir os nomes das colunas da TDM assim:
colnames(all_tdm) <- c("chardonnay", "coffee")
Por fim, converta o objeto para uma matriz usando as.matrix() para usar em comparison.cloud(). Para cada corpus distinto passado para comparison.cloud(), você pode especificar uma cor, como em colors = c("red", "yellow", "green"), para deixar as seções distinguíveis.
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
all_corpus já está carregado no seu workspace.
- Crie
all_cleanaplicando a função predefinidaclean_corpusaall_corpus. - Crie
all_tdm, umTermDocumentMatrix, a partir deall_clean. - Use
colnames()para renomear cada corpus distinto dentro deall_tdm. Dê o nome "coffee" à primeira coluna e "chardonnay" à segunda coluna. - Crie
all_mconvertendoall_tdmpara o formato de matriz. - Crie uma
comparison.cloud()usandoall_m, comcolors = c("orange", "blue")emax.words = 50.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Clean the corpus
___ <- ___(___)
# Create all_tdm
___ <- ___(___)
# Give the columns distinct names
___(___) <- ___
# Create all_m
___ <- ___(___)
# Create comparison cloud
comparison.cloud(___, ___ = c("___", "___"), max.words = ___)