Odświeżenie TM (II)

Teraz utwórzmy Document Term Matrix (DTM). W DTM:

Każdy wiersz macierzy reprezentuje dokument.
Każda kolumna odpowiada unikalnemu tokenowi słownemu.
Wartości macierzy odzwierciedlają użycie poszczególnych słów w danym dokumencie.

DTM stanowi podstawę wielu analiz typu bag of words. W dalszej części kursu poznasz również powiązaną strukturę Term Document Matrix (TDM). Jest to transpozycja DTM – kolumny reprezentują dokumenty, a wiersze – unikalne tokeny słowne.

DTM należy tworzyć po wyczyszczeniu korpusu (przy użyciu clean_corpus()). W tym celu wywołaj DocumentTermMatrix() na obiekcie korpusu.

tm_dtm <- DocumentTermMatrix(tm_clean)

Jeśli potrzebujesz bardziej szczegółowego przypomnienia, zajrzyj do kursu Text Mining with Bag-of-Words in R. Mamy nadzieję, że te dwa ćwiczenia dobrze przygotowały cię do analizy sentymentu!

Pamiętaj, że są to prawdziwe dane z Twittera – istnieje więc ryzyko, że mogą zawierać wulgaryzmy lub inne nieodpowiednie treści (w tym ćwiczeniu oraz w kolejnych, które również korzystają z rzeczywistych danych z Twittera).

Przygotowaliśmy obiekt VCorpus() o nazwie clean_text, zawierający 1000 tweetów z wzmianką o kawie. Tweety zostały oczyszczone przy użyciu opisanych wcześniej kroków przetwarzania wstępnego. Twoim zadaniem jest utworzenie DTM na ich podstawie.

Zastosuj DocumentTermMatrix() do korpusu clean_text, aby utworzyć ważony częstością terminów DTM o nazwie tf_dtm.
Przekształć obiekt DocumentTermMatrix() w prostą macierz za pomocą as.matrix(). Nowy obiekt nazwij tf_dtm_m.
Sprawdź wymiary macierzy za pomocą dim().
Użyj indeksowania nawiasami kwadratowymi, aby wyświetlić fragment macierzy.
Wybierz wiersze od 16 do 20 oraz kolumny od 2975 do 2985.
Zwróć uwagę na wartość częstości słowa "working."

вправа

Odświeżenie TM (II)

Інструкції

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}вправа

Інструкції

вправа