1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Analýza dat ze sociálních médií v R

Connected

cvičení

Vytvoření korpusu a převod na malá písmena

Korpus je seznam textových dokumentů. Text tweetů je potřeba převést do korpusu, aby bylo možné provést další kroky zpracování textu.

Při analýze textu chceme zajistit, aby se jedno slovo nepočítalo jako dvě různá jen proto, že je v různých místech napsáno s různou velikostí písmen. Proto je nutné převést text na malá písmena.

V tomto cvičení vytvoříš textový korpus a převedeš všechny znaky na malá písmena.

Vyčištěný textový výstup z předchozího cvičení je předem načtený jako twts_gsub.

Knihovna tm je pro toto cvičení předem načtená.

Pokyny 1/2

undefined XP
    1
    2
  • Převeď text v datovém rámci twt_gsub na textový korpus.