Vytvoření VCorpus z datového rámce

Pokud jsou textová data uložená v datovém rámci, můžeš pro analýzu použít DataframeSource(). Datový rámec předaný funkci DataframeSource() musí mít konkrétní strukturu:

Sloupec jedna musí mít název doc_id a obsahovat jedinečný řetězec pro každý řádek.
Sloupec dva musí mít název text s kódováním "UTF-8" (standardní formát).
Všechny ostatní sloupce, 3 a vyšší, jsou považovány za metadata a budou jako taková zachována.

Toto cvičení představuje funkci meta(), která slouží k extrakci metadat přidružených k jednotlivým dokumentům. Data often include metadata such as authors, dates, topic tags, or places that can inform your analysis. Tvá data často obsahují metadata, jako jsou autoři, data, tematické štítky nebo místa, která mohou analýzu obohatit. Jakmile je text převeden na korpus, můžeš pomocí meta() prozkoumat doplňující informace na úrovni dokumentů.

Toto cvičení je součástí kurzu

Dolování textu metodou Bag-of-Words v R

Zobrazit kurz

Pokyny k cvičení

V pracovním prostředí najdeš jednoduchý datový rámec example_text se správnými názvy sloupců a některými metadaty. K dispozici je také vec_corpus — volatilní korpus vytvořený pomocí VectorSource().

Vytvoř df_source pomocí DataframeSource() s datovým rámcem example_text.
Vytvoř df_corpus převodem df_source na volatilní objekt korpusu pomocí VCorpus().
Vypiš df_corpus. Všimni si, kolik dokumentů obsahuje a kolik metadat na úrovni dokumentů bylo zachováno.
Použij meta() na df_corpus a vypiš metadata přidružená k dokumentům.
Prohlédni si předem načtený objekt vec_corpus. Porovnej počet dokumentů s df_corpus.
Použij meta() na vec_corpus a porovnej metadata nalezená v vec_corpus a df_corpus.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Create a DataframeSource from the example text
df_source <- ___

# Convert df_source to a volatile corpus
df_corpus <- ___

# Examine df_corpus
df_corpus

# Examine df_corpus metadata
___

# Compare the number of documents in the vector source
vec_corpus

# Compare metadata in the vector corpus
___

Upravit a spustit kód