1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Jak bigramy ovlivňují slovní mraky?

Teď, když máš bigramový DTM, můžeš ho prozkoumat a sestavit nový slovní mrak. Nová metoda tokenizace ovlivňuje nejen matice, ale i všechny vizualizace a modely na nich postavené.

Pamatuješ, jak byly „Marvin" a „Gaye" ve slovním mraku chardonnay dva oddělené výrazy? Bigramová tokenizace zachytí všechny kombinace dvou slov. Sleduj, co se v tomto cvičení se slovním mrakem stane.

Toto cvičení využívá str_subset z balíčku stringr. Měj na paměti, že regulárními výrazy se podrobněji zabývají jiné kurzy na DataCampu. Připomínáme, že regulární výraz ^ odpovídá počáteční pozici v rámci bigramů tohoto cvičení.

Pokyny

100 XP

Tweety o chardonnay byly vyčištěny a uspořádány do DTM s názvem bigram_dtm.

  • Vytvoř bigram_dtm_m převodem bigram_dtm na matici.
  • Vytvoř objekt freq obsahující frekvence slov pomocí funkce colSums() aplikované na bigram_dtm_m.
  • Extrahuj znakový vektor kombinací slov pomocí names(freq) a výsledek ulož do bi_words.
  • Předej bi_words do str_subset() se vzorem "^marvin" a prohlédni si všechny bigramy začínající na "marvin".
  • Vykresli jednoduchý slovní mrak pomocí wordcloud() s argumenty bi_words, freq a max.words = 15.