1. Learn
  2. /
  3. Cursuri
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

exercițiu

Tworzenie VCorpus z ramki danych

Jeśli dane tekstowe znajdują się w ramce danych, do analizy możesz użyć DataframeSource(). Ramka danych przekazywana do DataframeSource() musi mieć określoną strukturę:

  • Kolumna pierwsza musi nazywać się doc_id i zawierać unikalny ciąg znaków dla każdego wiersza.
  • Kolumna druga musi nazywać się text i mieć kodowanie „UTF-8" (standard).
  • Wszystkie pozostałe kolumny, od 3. wzwyż, są traktowane jako metadane i zostają zachowane.

To ćwiczenie wprowadza funkcję meta(), która służy do wyodrębniania metadanych powiązanych z każdym dokumentem. Dane często zawierają metadane takie jak autorzy, daty, tagi tematyczne czy miejsca – mogą one wzbogacić analizę. Po przekształceniu tekstu na korpus możesz użyć meta(), aby sprawdzić dodatkowe informacje na poziomie dokumentu.

Instrucțiuni

100 XP

W obszarze roboczym znajdziesz prostą ramkę danych o nazwie example_text z odpowiednimi nazwami kolumn i pewnymi metadanymi. Dostępny jest również vec_corpus – korpus ulotny (volatile corpus) utworzony za pomocą VectorSource().

  • Utwórz df_source, używając DataframeSource() z example_text.
  • Utwórz df_corpus, konwertując df_source na ulotny obiekt korpusu za pomocą VCorpus().
  • Wyświetl df_corpus. Zwróć uwagę na liczbę dokumentów oraz liczbę zachowanych metadanych na poziomie dokumentu.
  • Użyj meta() na df_corpus, aby wyświetlić metadane powiązane z dokumentami.
  • Przejrzyj wstępnie załadowany obiekt vec_corpus. Porównaj liczbę dokumentów z df_corpus.
  • Użyj meta() na vec_corpus, aby porównać metadane dostępne w vec_corpus i df_corpus.