1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Hledání společných slov

Představ si, že chceš vizualizovat společná slova napříč více dokumenty. K tomu slouží funkce commonality.cloud().

Každý z našich korpusů – kávový i chardonnayový – se skládá z mnoha jednotlivých tweetů. Aby bylo možné pracovat se všemi kávovými tweety jako s jedním dokumentem (a stejně tak s chardonnayovými), použijeme funkci paste() s parametrem collapse = " ". Tím se všechny tweety (oddělené mezerou) sloučí do jednoho vektoru. Následně vytvoříme jediný vektor obsahující oba sloučené dokumenty.

a_single_string <- paste(a_character_vector, collapse = " ")

Jakmile tyto kroky dokončíš, můžeš stejným způsobem jako dříve vytvořit VCorpus() z objektu all_tweets pomocí VectorSource.

Pokyny

100 XP
  • Vytvoř all_coffee pomocí funkce paste() s collapse = " " aplikované na coffee_tweets$text.
  • Vytvoř all_chardonnay pomocí funkce paste() s collapse = " " aplikované na chardonnay_tweets$text.
  • Vytvoř all_tweets pomocí c(), které zkombinuje all_coffee a all_chardonnay. Jako první uveď all_coffee.
  • Převeď all_tweets pomocí VectorSource().
  • Vytvoř all_corpus pomocí VCorpus() aplikované na all_tweets.