1. Nauka
  2. /
  3. Kursy
  4. /
  5. Sentiment Analysis in R

Connected

ćwiczenie

Vytvoření korpusů na základě polarity

V tomto cvičení provedeš krok 3 pracovního postupu při dolování textu. Ačkoli qdap není tidy balíček, použiješ mutate() k vytvoření nového sloupce na základě vráceného seznamu polarity, který reprezentuje všechny hodnoty polarity (to je mimochodem nápověda). Ve třetí kapitole jsme použili vlastní funkci pol_subsections, která pracuje pouze se základními funkcemi R. V tomto cvičení ale dodržujeme tidy principy – využijeme filter() a navíc si představíme pull(). Funkce pull() funguje podobně jako [[ a slouží k extrakci jedné proměnné.

Po rozdělení sloučíš všechny pozitivní a negativní komentáře do dvou větších dokumentů, které budou reprezentovat všechna slova z kladných a záporných recenzí ubytování.

Nakonec vytvoříš Term Document Matrix (TDM) váženou metodou TF-IDF (Term Frequency Inverse Document Frequency). Protože kód v tomto cvičení vychází z tidy struktury, jsou některé funkce z balíčku tm kombinovány s operátorem %>%, aby byl styl konzistentní. Pokud základy balíčku tm neznáš, podívej se na kurz Text Mining with Bag-of-Words in R. Místo počítání četnosti výskytů slov jsou hodnoty v TDM penalizovány za příliš frekventované výrazy – to pomáhá omezit neinformativní slova.

Instrukcje 1/4

undefined XP
    1
    2
    3
    4
  • Získej pozitivní komentáře.
    • Pomocí mutate() přidej sloupec polarity rovný bos_pol$all$polarity.
    • Filtruj řádky, kde je polarity větší než nula.
    • Pomocí pull() extrahuj sloupec comments. (Název sloupce předej bez uvozovek.)
    • Spoj vše do jediného řetězce odděleného mezerami pomocí paste() s argumentem collapse = " ".