1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Sentiment Analysis in R

Connected

cvičení

Vytvoř tidy text tibble!

Teď, když znáš principy tidy dat, tento kód ti pomůže uspořádat data do tibble, se kterým pak můžeš pracovat v rámci tidyverse!

Dříve sis ukázal/a, že použití tidy() na objekt TermDocumentMatrix() převede TDM na tibble. V tomto cvičení vytvoříš slovní data přímo ze sloupce s recenzemi comments.

Nejprve použiješ unnest_tokens(), aby se text převedl na malá písmena a recenze se tokenizovaly na jednotlivá slova.

Někdy se hodí zachytit původní pořadí slov v každé skupině korpusu. K tomu použij mutate(). Uvnitř mutate() použiješ seq_along(), která vytvoří posloupnost čísel od 1 do délky objektu – tím zachytíš pořadí slov přesně tak, jak byla napsána.

V balíčku tm bys k odstranění stopwords použil/a removeWords(). V tidyverse nejprve načteš lexikon stopwords a pak použiješ anti_join() mezi tidy textovým datovým rámcem a stopwords.

Pokyny

100 XP
  • Vytvoř tidy_reviews tak, že původní objekt s recenzemi bos_reviews propojíš (%>%) s funkcí unnest_tokens(). Předej název nového sloupce word a deklaruj sloupec comments. Pamatuj, že v tidyverse nepotřebuješ $ ani uvozovky.
  • Vytvoř novou proměnnou tidy způsobem! Přepiš tidy_reviews tak, že tidy_reviews propojíš s group_by podle sloupce id. Pak to opět přes %>% předej do mutate(). Uvnitř mutate vytvoř novou proměnnou original_word_order rovnou seq_along(word).
  • Vypiš tibble tidy_reviews.
  • Načti předpřipravený lexikon stopwords „SMART" do své R session příkazem data("stop_words").
  • Přepiš tidy_reviews tak, že původní tidy_reviews propojíš přes %>% s anti_join(). Uvnitř anti_join() předej předpřipravený lexikon stop_words.