Combat en cage ! Avis pro Amazon vs Google
Les avis positifs sur Amazon semblent mentionner des bigrammes comme « good benefits », tandis que les avis négatifs mettent l’accent sur des questions de « workload » et d’« work-life balance ».
À l’inverse, les avis positifs sur Google évoquent « great food », « perks », « smart people » et une « fun culture », entre autres. Les avis négatifs sur Google parlent de « politics », de « getting big », de « bureaucracy » et de « middle management ».
Vous décidez de créer un pyramid plot alignant les avis positifs d’Amazon et de Google pour comparer les différences entre les bigrammes communs.
Nous avons préchargé un data frame, all_tdm_df, constitué de terms et des fréquences de bigrammes correspondantes AmazonPro et GooglePro. À partir de ce data frame, vous allez identifier les 5 principaux bigrammes partagés entre les deux corpus.
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
- Créez
common_wordsà partir deall_tdm_dfen utilisant les fonctionsdplyr.filter()sur la colonneAmazonPropour conserver les valeurs non nulles.- Filtrez de même la colonne
GooglePropour les valeurs non nulles. - Puis
mutate()une nouvelle colonnediff, qui est la différence absolue (abs) entre les colonnes de fréquences de termes.
- Passez
common_wordsvia un pipe àslice_maxpour créertop5_df, en référencant la colonnediffet les5plus grandes valeurs. Le résultat s’affichera dans votre console pour vérification. - Créez un
pyramid.ploten passant d’abordtop5_df$AmazonPro, puistop5_df$GooglePro, et enfin ajoutez les étiquettes avectop5_df$terms.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Filter to words in common and create an absolute diff column
common_words <- all_tdm_df %>%
filter(
___ != 0,
___ != 0
) %>%
___(diff = ___(___ - ___))
# Extract top 5 common bigrams
(top5_df <- common_words %>% ___(___, n = ___))
# Create the pyramid plot
pyramid.plot(top5_df$___, top5_df$___,
labels = top5_df$___, gap = 12,
top.labels = c("Amzn", "Pro Words", "Goog"),
main = "Words in Common", unit = NULL)