1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Sentiment Analysis in R

Connected

cvičení

Srovnávací cloud

V tomto cvičení vytvoříš běžnou vizualizaci pro pochopení frekvence výskytů termínů. Konkrétně se podíváš na nejčastější výrazy v pozitivních a negativních sloučených dokumentech. Vzpomeň si na TermDocumentMatrix all_tdm, kterou jsi vytvořil/a dříve. Místo 1 000 recenzí pronájmů obsahuje matice 2 dokumenty se všemi recenzemi rozdělenými podle skóre polarity().

Převod TDM na matici bývá nejpohodlnější. Pak jednoduše přejmenuj sloupce. Pamatuj, že funkce colnames() se volá na levé straně operátoru přiřazení, jak je ukázáno níže.

colnames(OBJECT) <- c("COLUMN_NAME1", "COLUMN_NAME2")

Poté matici seřadíš, abys viděl/a nejpozitivnější a nejnegativnější slova. Tyto výrazy si dobře prohlédni – budou se ti hodit při závěrečných cvičeních!

Nakonec výrazy vizualizuješ pomocí comparison.cloud().

Pokyny 1/2

undefined XP
    1
    2
  • Převeď předem načtené all_tdm na matici s názvem all_tdm_m pomocí as.matrix().
  • Použij colnames() na all_tdm_m a nastav názvy sloupců na c("positive", "negative").
  • Aplikuj order() na all_tdm_m[,1] a nastav decreasing = TRUE.
  • Prohlédni si 10 nejčastějších termínů přeřazené TDM pomocí roury (%>%) a funkce head() s n = 10.
  • Zopakuj předchozí dva kroky pro negativní komentáře. Tentokrát použij order() na druhý sloupec, all_tdm_m[,2], opět s decreasing = TRUE.
  • Zobraz 10 nejnegativnějších termínů indexováním all_tdm_m pomocí order_by_neg. Výsledek předej rourou do head() s n = 10.