Převod vektoru na objekt VCorpus (1)

Vzpomeň si, že jsi v předchozím cvičení načetl/a textová data jako vektor s názvem coffee_tweets. Dalším krokem je převod tohoto vektoru s textovými daty na corpus. Jak jsi se dozvěděl/a ve videu, corpus je kolekce dokumentů — a v prostředí balíčku tm ho R rozpoznává jako samostatný datový typ.

Existují dva druhy datového typu corpus: permanentní corpus PCorpus a volatilní corpus VCorpus. Hlavní rozdíl mezi nimi spočívá v tom, jak je kolekce dokumentů uložena v počítači. V tomto kurzu budeme pracovat s volatilním corpusem, který je uložen v operační paměti (RAM), nikoliv na disku — je to efektivnější z hlediska využití paměti.

Aby R dokázal vytvořit volatilní corpus, musí každý prvek našeho vektoru coffee_tweets interpretovat jako samostatný dokument. K tomu slouží v balíčku tm takzvané funkce Source! V tomto cvičení použijeme funkci VectorSource(), protože naše textová data jsou uložena ve vektoru. Výstupem této funkce je objekt Source. Pojď to vyzkoušet!

Toto cvičení je součástí kurzu

Dolování textu metodou Bag-of-Words v R

Zobrazit kurz

Pokyny k cvičení

Načti balíček tm.
Vytvoř objekt Source z vektoru coffee_tweets. Tento nový objekt pojmenuj coffee_source.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Load tm
___

# Make a vector source from coffee_tweets
___

Upravit a spustit kód