1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Převod vektoru na objekt VCorpus (1)

Vzpomeň si, že jsi v předchozím cvičení načetl/a textová data jako vektor s názvem coffee_tweets. Dalším krokem je převod tohoto vektoru s textovými daty na corpus. Jak jsi se dozvěděl/a ve videu, corpus je kolekce dokumentů — a v prostředí balíčku tm ho R rozpoznává jako samostatný datový typ.

Existují dva druhy datového typu corpus: permanentní corpus PCorpus a volatilní corpus VCorpus. Hlavní rozdíl mezi nimi spočívá v tom, jak je kolekce dokumentů uložena v počítači. V tomto kurzu budeme pracovat s volatilním corpusem, který je uložen v operační paměti (RAM), nikoliv na disku — je to efektivnější z hlediska využití paměti.

Aby R dokázal vytvořit volatilní corpus, musí každý prvek našeho vektoru coffee_tweets interpretovat jako samostatný dokument. K tomu slouží v balíčku tm takzvané funkce Source! V tomto cvičení použijeme funkci VectorSource(), protože naše textová data jsou uložena ve vektoru. Výstupem této funkce je objekt Source. Pojď to vyzkoušet!

Pokyny

100 XP
  • Načti balíček tm.
  • Vytvoř objekt Source z vektoru coffee_tweets. Tento nový objekt pojmenuj coffee_source.