1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Vytvoření VCorpus z datového rámce

Pokud jsou textová data uložená v datovém rámci, můžeš pro analýzu použít DataframeSource(). Datový rámec předaný funkci DataframeSource() musí mít konkrétní strukturu:

  • Sloupec jedna musí mít název doc_id a obsahovat jedinečný řetězec pro každý řádek.
  • Sloupec dva musí mít název text s kódováním "UTF-8" (standardní formát).
  • Všechny ostatní sloupce, 3 a vyšší, jsou považovány za metadata a budou jako taková zachována.

Toto cvičení představuje funkci meta(), která slouží k extrakci metadat přidružených k jednotlivým dokumentům. Data often include metadata such as authors, dates, topic tags, or places that can inform your analysis. Tvá data často obsahují metadata, jako jsou autoři, data, tematické štítky nebo místa, která mohou analýzu obohatit. Jakmile je text převeden na korpus, můžeš pomocí meta() prozkoumat doplňující informace na úrovni dokumentů.

Pokyny

100 XP

V pracovním prostředí najdeš jednoduchý datový rámec example_text se správnými názvy sloupců a některými metadaty. K dispozici je také vec_corpus — volatilní korpus vytvořený pomocí VectorSource().

  • Vytvoř df_source pomocí DataframeSource() s datovým rámcem example_text.
  • Vytvoř df_corpus převodem df_source na volatilní objekt korpusu pomocí VCorpus().
  • Vypiš df_corpus. Všimni si, kolik dokumentů obsahuje a kolik metadat na úrovni dokumentů bylo zachováno.
  • Použij meta() na df_corpus a vypiš metadata přidružená k dokumentům.
  • Prohlédni si předem načtený objekt vec_corpus. Porovnej počet dokumentů s df_corpus.
  • Použij meta() na vec_corpus a porovnej metadata nalezená v vec_corpus a df_corpus.