1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Zachycení metadat v tm

Podle toho, čeho chceš dosáhnout, možná budeš chtít při vytváření korpusu uchovat metadata o dokumentu.

Aby se metadata na úrovni dokumentu zachytila správně, musí mít sloupce přesně tato jména a pořadí:

  1. doc_id – jedinečný řetězec pro každý dokument
  2. text – text ke zkoumání
  3. ... – všechny ostatní sloupce se automaticky zanesou jako metadata.

Někdy budeš muset sloupce přejmenovat, aby odpovídaly požadavkům funkce DataframeSource(). K tomu se hodí funkce names().

V tvém pracovním prostoru existuje objekt tweets jako datový rámec se sloupci "num", "text", "screenName" a "created".

Pokyny

100 XP
  • Přejmenuj první sloupec objektu tweets na "doc_id".
  • Nastav schéma dokumentu pomocí DataframeSource() na menší datový rámec tweets.
  • Z kolekce dokumentů vytvoř nestálý korpus vnořený do vlastní funkce clean_corpus().
  • Pomocí funkce content() s dvojitými závorkami, například text_corpus[[1]], zobraz vyčištěný prostý text prvního tweetu.
  • Ověř, že se všechna metadata zachytila správně, a to pomocí funkce meta() na prvním dokumentu s jednoduchými závorkami.

Pamatuj, že při přístupu k části korpusu záleží na tom, jestli použiješ dvojité, nebo jednoduché závorky! V tomto cvičení používej dvojité závorky s content() a jednoduché závorky s meta().