Przykład modelu klasyfikacji

Wcześniej przygotowano zbiór rosyjskich tweetów do klasyfikacji. Spośród 20 000 tweetów odfiltrowano te z wartością account_type równą Left lub Right i wybrano pierwsze 2000 tweetów każdego rodzaju. Tweety zostały już stokenizowane do postaci słów, usunięto słowa funkcyjne (stop words) i przeprowadzono stemming. Następnie przeliczono liczby wystąpień słów na macierz dokumentów i terminów (document-term matrix) z wagami TFIDF, zapisując ją jako: left_right_matrix_small.

Tę macierz wykorzystasz do przewidzenia, czy dany tweet pochodzi od bota lewicowego, czy prawicowego. Etykiety znajdziesz w wektorze left_right_labels.

Ustaw ziarno losowości na 1111, aby zapewnić odtwarzalność wyników.
Utwórz zbiory treningowy i testowy. Użyj 75% próby jako danych treningowych.
Uruchom model lasu losowego na danych treningowych, używając left_right_labels jako wektora odpowiedzi y.
Wyświetl wyniki modelu lasu losowego.

ćwiczenie

Przykład modelu klasyfikacji

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie