1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Souboj! Kladné recenze Amazonu vs. Googlu

Kladné recenze Amazonu zmiňují bigramy jako „good benefits", zatímco záporné se soustředí na témata jako „workload" nebo problémy s „work-life balance".

Google naproti tomu sklízí v kladných recenzích pochvaly za „great food", „perks", „smart people" nebo „fun culture". Záporné recenze se pak točí kolem „politics", „getting big", „bureaucracy" a „middle management".

Rozhodneš se sestavit pyramid plot, který postaví kladné recenze Amazonu a Googlu vedle sebe a ukáže rozdíly ve sdílených bigramech. Máme pro tebe předpřipravený datový rámec all_tdm_df s hodnotami terms a odpovídajícími frekvencemi bigramů AmazonPro a GooglePro. Pomocí tohoto datového rámce identifikuješ 5 nejčastějších bigramů, které se vyskytují v obou korpusech.

Pokyny

100 XP
  • Vytvoř common_words z datového rámce all_tdm_df pomocí funkcí dplyr.
    • Pomocí filter() vyfiltruj sloupec AmazonPro tak, aby neobsahoval nulové hodnoty.
    • Stejným způsobem vyfiltruj sloupec GooglePro pro nenulové hodnoty.
    • Poté pomocí mutate() přidej nový sloupec diff, který bude obsahovat abs (absolutní) rozdíl mezi sloupci s frekvencemi termínů.
  • Piped common_words do funkce slice_max, čímž vytvoříš top5_df odkazující na sloupec diff a top 5 hodnot. Výsledek se ti vypíše do konzole.
  • Vytvoř pyramid.plot – předej mu top5_df$AmazonPro, pak top5_df$GooglePro a nakonec přidej popisky pomocí top5_df$terms.