1. Nauka
  2. /
  3. Kursy
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

ćwiczenie

Przechwytywanie metadanych w tm

W zależności od celu analizy możesz chcieć zachować metadane dokumentu podczas tworzenia korpusu.

Aby przechwycić metadane na poziomie dokumentu, nazwy i kolejność kolumn muszą być następujące:

  1. doc_id – unikalny ciąg znaków dla każdego dokumentu
  2. text – tekst przeznaczony do analizy
  3. ... – wszystkie pozostałe kolumny zostaną automatycznie skatalogowane jako metadane.

Czasem trzeba zmienić nazwy kolumn, żeby spełnić wymagania funkcji DataframeSource(). Przydaje się do tego funkcja names().

W twoim środowisku pracy istnieje ramka danych tweets z kolumnami "num", "text", "screenName" i "created".

Instrukcje

100 XP
  • Zmień nazwę pierwszej kolumny tweets na "doc_id".
  • Zdefiniuj schemat dokumentu, stosując DataframeSource() na mniejszej ramce danych tweets.
  • Przekształć kolekcję dokumentów w zmienny korpus zagnieżdżony w niestandardowej funkcji clean_corpus().
  • Zastosuj content() do pierwszego tweeta, używając podwójnych nawiasów kwadratowych, np. text_corpus[[1]], aby zobaczyć oczyszczony tekst.
  • Sprawdź, czy wszystkie metadane zostały przechwycone, używając funkcji meta() na pierwszym dokumencie z pojedynczymi nawiasami kwadratowymi.

Pamiętaj, że przy dostępie do elementów korpusu podwójne lub pojedyncze nawiasy kwadratowe mają znaczenie! W tym ćwiczeniu użyj podwójnych nawiasów z content() i pojedynczych nawiasów z meta().