Confronto! Avaliações positivas: Amazon vs. Google
As avaliações positivas da Amazon parecem mencionar bigramas como "good benefits", enquanto as negativas se concentram em bigramas como questões de "workload" e "work-life balance".
Em contraste, as avaliações positivas do Google mencionam "great food", "perks", "smart people" e "fun culture", entre outras coisas. As avaliações negativas do Google discutem "politics", "getting big", "bureaucracy" e "middle management".
Você decidiu fazer um gráfico em pirâmide alinhando as avaliações positivas da Amazon e do Google para comparar as diferenças entre quaisquer bigramas em comum.
Pré-carregamos um data frame, all_tdm_df, composto por terms e as frequências de bigramas correspondentes AmazonPro e GooglePro. Usando esse data frame, você vai identificar os 5 principais bigramas compartilhados entre os dois corpora.
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
- Crie
common_wordsa partir deall_tdm_dfusando funções dodplyr.- Faça
filter()na colunaAmazonPropara valores diferentes de zero. - Da mesma forma, filtre a coluna
GooglePropara valores diferentes de zero. - Em seguida, use
mutate()para criar uma nova coluna,diff, que é a diferença absoluta (abs) entre as colunas de frequência dos termos.
- Faça
- Encaminhe (
pipe)common_wordsparaslice_maxpara criartop5_df, referenciando a colunadiffe os5maiores valores. Ele será impresso no seu console para revisão. - Crie um
pyramid.plotpassandotop5_df$AmazonPro, depoistop5_df$GoogleProe, por fim, adicione os rótulos comtop5_df$terms.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Filter to words in common and create an absolute diff column
common_words <- all_tdm_df %>%
filter(
___ != 0,
___ != 0
) %>%
___(diff = ___(___ - ___))
# Extract top 5 common bigrams
(top5_df <- common_words %>% ___(___, n = ___))
# Create the pyramid plot
pyramid.plot(top5_df$___, top5_df$___,
labels = top5_df$___, gap = 12,
top.labels = c("Amzn", "Pro Words", "Goog"),
main = "Words in Common", unit = NULL)