Tworzenie VCorpus z ramki danych

Jeśli dane tekstowe znajdują się w ramce danych, do analizy możesz użyć DataframeSource(). Ramka danych przekazywana do DataframeSource() musi mieć określoną strukturę:

Kolumna pierwsza musi nazywać się doc_id i zawierać unikalny ciąg znaków dla każdego wiersza.
Kolumna druga musi nazywać się text i mieć kodowanie „UTF-8" (standard).
Wszystkie pozostałe kolumny, od 3. wzwyż, są traktowane jako metadane i zostają zachowane.

To ćwiczenie wprowadza funkcję meta(), która służy do wyodrębniania metadanych powiązanych z każdym dokumentem. Dane często zawierają metadane takie jak autorzy, daty, tagi tematyczne czy miejsca – mogą one wzbogacić analizę. Po przekształceniu tekstu na korpus możesz użyć meta(), aby sprawdzić dodatkowe informacje na poziomie dokumentu.

W obszarze roboczym znajdziesz prostą ramkę danych o nazwie example_text z odpowiednimi nazwami kolumn i pewnymi metadanymi. Dostępny jest również vec_corpus – korpus ulotny (volatile corpus) utworzony za pomocą VectorSource().

Utwórz df_source, używając DataframeSource() z example_text.
Utwórz df_corpus, konwertując df_source na ulotny obiekt korpusu za pomocą VCorpus().
Wyświetl df_corpus. Zwróć uwagę na liczbę dokumentów oraz liczbę zachowanych metadanych na poziomie dokumentu.
Użyj meta() na df_corpus, aby wyświetlić metadane powiązane z dokumentami.
Przejrzyj wstępnie załadowany obiekt vec_corpus. Porównaj liczbę dokumentów z df_corpus.
Użyj meta() na vec_corpus, aby porównać metadane dostępne w vec_corpus i df_corpus.

exercițiu

Tworzenie VCorpus z ramki danych

Instrucțiuni

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu