1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w R

Connected

ćwiczenie

Przykład modelu klasyfikacji

Wcześniej przygotowano zbiór rosyjskich tweetów do klasyfikacji. Spośród 20 000 tweetów odfiltrowano te z wartością account_type równą Left lub Right i wybrano pierwsze 2000 tweetów każdego rodzaju. Tweety zostały już stokenizowane do postaci słów, usunięto słowa funkcyjne (stop words) i przeprowadzono stemming. Następnie przeliczono liczby wystąpień słów na macierz dokumentów i terminów (document-term matrix) z wagami TFIDF, zapisując ją jako: left_right_matrix_small.

Tę macierz wykorzystasz do przewidzenia, czy dany tweet pochodzi od bota lewicowego, czy prawicowego. Etykiety znajdziesz w wektorze left_right_labels.

Instrukcje

100 XP
  • Ustaw ziarno losowości na 1111, aby zapewnić odtwarzalność wyników.
  • Utwórz zbiory treningowy i testowy. Użyj 75% próby jako danych treningowych.
  • Uruchom model lasu losowego na danych treningowych, używając left_right_labels jako wektora odpowiedzi y.
  • Wyświetl wyniki modelu lasu losowego.