1. Nauka
  2. /
  3. Kursy
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

ćwiczenie

Starcie tytanów! Amazon kontra Google – pozytywne recenzje

Pozytywne recenzje Amazona zawierają bigramy takie jak "good benefits", natomiast negatywne skupiają się na "workload" i problemach z "work-life balance".

Z kolei pozytywne recenzje Google'a wspominają m.in. "great food", "perks", "smart people" i "fun culture". Negatywne dotyczą "politics", "getting big", "bureaucracy" i "middle management".

Postanawiasz stworzyć wykres piramidowy, który zestawia pozytywne recenzje Amazona i Google'a, aby porównać różnice w wspólnych bigramach. Wstępnie załadowaliśmy ramkę danych all_tdm_df, zawierającą kolumny terms oraz odpowiadające im częstości bigramów AmazonPro i GooglePro. Na jej podstawie wyłonisz 5 bigramów, które pojawiają się w obu korpusach.

Instrukcje

100 XP
  • Utwórz common_words z all_tdm_df, używając funkcji dplyr.
    • Zastosuj filter() na kolumnie AmazonPro, aby zachować tylko wartości niezerowe.
    • Podobnie odfiltruj kolumnę GooglePro pod kątem wartości niezerowych.
    • Następnie użyj mutate(), aby dodać nową kolumnę diff zawierającą wartość abs (bezwzględną) różnicy między częstościami bigramów.
  • Przekaż common_words przez pipe do slice_max, aby utworzyć top5_df – odwołaj się do kolumny diff i wybierz 5 największych wartości. Wynik pojawi się w konsoli.
  • Utwórz pyramid.plot, przekazując kolejno top5_df$AmazonPro, top5_df$GooglePro, a następnie dodając etykiety z top5_df$terms.