1. Learn
  2. /
  3. Курси
  4. /
  5. Analiza sentymentu w R

Connected

вправа

Odświeżenie TM (II)

Teraz utwórzmy Document Term Matrix (DTM). W DTM:

  • Każdy wiersz macierzy reprezentuje dokument.
  • Każda kolumna odpowiada unikalnemu tokenowi słownemu.
  • Wartości macierzy odzwierciedlają użycie poszczególnych słów w danym dokumencie.

DTM stanowi podstawę wielu analiz typu bag of words. W dalszej części kursu poznasz również powiązaną strukturę Term Document Matrix (TDM). Jest to transpozycja DTM – kolumny reprezentują dokumenty, a wiersze – unikalne tokeny słowne.

DTM należy tworzyć po wyczyszczeniu korpusu (przy użyciu clean_corpus()). W tym celu wywołaj DocumentTermMatrix() na obiekcie korpusu.

tm_dtm <- DocumentTermMatrix(tm_clean)

Jeśli potrzebujesz bardziej szczegółowego przypomnienia, zajrzyj do kursu Text Mining with Bag-of-Words in R. Mamy nadzieję, że te dwa ćwiczenia dobrze przygotowały cię do analizy sentymentu!

Pamiętaj, że są to prawdziwe dane z Twittera – istnieje więc ryzyko, że mogą zawierać wulgaryzmy lub inne nieodpowiednie treści (w tym ćwiczeniu oraz w kolejnych, które również korzystają z rzeczywistych danych z Twittera).

Інструкції

100 XP

Przygotowaliśmy obiekt VCorpus() o nazwie clean_text, zawierający 1000 tweetów z wzmianką o kawie. Tweety zostały oczyszczone przy użyciu opisanych wcześniej kroków przetwarzania wstępnego. Twoim zadaniem jest utworzenie DTM na ich podstawie.

  • Zastosuj DocumentTermMatrix() do korpusu clean_text, aby utworzyć ważony częstością terminów DTM o nazwie tf_dtm.
  • Przekształć obiekt DocumentTermMatrix() w prostą macierz za pomocą as.matrix(). Nowy obiekt nazwij tf_dtm_m.
  • Sprawdź wymiary macierzy za pomocą dim().
  • Użyj indeksowania nawiasami kwadratowymi, aby wyświetlić fragment macierzy.
  • Wybierz wiersze od 16 do 20 oraz kolumny od 2975 do 2985.
  • Zwróć uwagę na wartość częstości słowa "working."