Przechwytywanie metadanych w tm

W zależności od celu analizy możesz chcieć zachować metadane dokumentu podczas tworzenia korpusu.

Aby przechwycić metadane na poziomie dokumentu, nazwy i kolejność kolumn muszą być następujące:

doc_id – unikalny ciąg znaków dla każdego dokumentu
text – tekst przeznaczony do analizy
... – wszystkie pozostałe kolumny zostaną automatycznie skatalogowane jako metadane.

Czasem trzeba zmienić nazwy kolumn, żeby spełnić wymagania funkcji DataframeSource(). Przydaje się do tego funkcja names().

W twoim środowisku pracy istnieje ramka danych tweets z kolumnami "num", "text", "screenName" i "created".

Zmień nazwę pierwszej kolumny tweets na "doc_id".
Zdefiniuj schemat dokumentu, stosując DataframeSource() na mniejszej ramce danych tweets.
Przekształć kolekcję dokumentów w zmienny korpus zagnieżdżony w niestandardowej funkcji clean_corpus().
Zastosuj content() do pierwszego tweeta, używając podwójnych nawiasów kwadratowych, np. text_corpus[[1]], aby zobaczyć oczyszczony tekst.
Sprawdź, czy wszystkie metadane zostały przechwycone, używając funkcji meta() na pierwszym dokumencie z pojedynczymi nawiasami kwadratowymi.

Pamiętaj, że przy dostępie do elementów korpusu podwójne lub pojedyncze nawiasy kwadratowe mają znaczenie! W tym ćwiczeniu użyj podwójnych nawiasów z content() i pojedynczych nawiasów z meta().

ćwiczenie

Przechwytywanie metadanych w tm

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie