1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Sentiment Analysis in R

Connected

cvičení

Bing tidy polarita: Count & pivot na bílou velrybu

V tomto cvičení použiješ další inner_join() s lexikonem "bing".

Výsledky pak upravíš pomocí count() z balíčku dplyr a pivot_wider() z balíčku tidyr, abys lépe porozuměl/a textu.

Funkce pivot_wider() rozloží data do více sloupců. V tomto případě sentiment a odpovídající hodnoty n vyjadřují četnost pozitivních nebo negativních výrazů pro každý řádek. Použití pivot_wider() data přetransformuje tak, že každý řádek bude mít hodnoty pro pozitivní i negativní sentiment – i když jsou nulové.

Pokyny

100 XP

V tomto cvičení máš v R session objekt m_dick_tidy s knihou Moby Dick a objekt bing s lexikonem, podobně jako v předchozím cvičení.

  • Proveď inner_join() na m_dick_tidy a bing.
    • Stejně jako dříve spoj sloupec "term" v m_dick_tidy se sloupcem "word" v lexikonu.
    • Nový objekt pojmenuj moby_lex_words.
  • Vytvoř sloupec index jako výsledek as.numeric() aplikovaného na document. Použij k tomu mutate() z tidyverse.
  • Vytvoř moby_count tak, že přepošleš moby_lex_words do count() s argumenty sentiment, index.
  • Vytvoř moby_wide tak, že přepošleš moby_count do pivot_wider(), kde names_from odpovídá sloupci sentiment, values_from odpovídá sloupci n a chybějící hodnoty se doplní pomocí values_fill = 0.
  • Jako další pipe použij arrange k seřazení řádků podle hodnot index