Sınıflandırma modelleme örneği
Daha önce sınıflandırma için bir dizi Rusça tweet hazırladın. 20.000 tweet arasından, account_type değeri Left veya Right olanları süzdün ve her birinden ilk 2000 tweet'i seçtin. Tweet'leri sözcüklere tokenleştirdin, durak (stop) sözcükleri kaldırdın ve kök bulma (stemming) uyguladın. Ayrıca, sözcük sayılarını ağırlıklar için TFIDF değerleri kullanan bir belge-terim matrisine dönüştürdün ve bu matrisi left_right_matrix_small olarak kaydettin.
Bu matrisi kullanarak bir tweet'in sol eğilimli bir tweet botundan mı yoksa sağ eğilimli bir tweet botundan mı üretildiğini tahmin edeceksin. Etiketler left_right_labels vektöründe bulunuyor.
Bu egzersiz
R ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırEgzersiz talimatları
- Tekrarlanabilirlik için rastgele tohumu
1111olarak ayarla. - Eğitim ve test veri kümelerini oluştur. Eğitim verisi için %75'lik bir örnek kullan.
- Eğitim verisi üzerinde bir random forest modeli çalıştır, yanıt vektörü
yiçinleft_right_labels'ı kullan. - Random forest sonuçlarını yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
library(randomForest)
# Create train/test split
set.___(___)
sample_size <- floor(___ * nrow(left_right_matrix_small))
train_ind <- ___(nrow(left_right_matrix_small), size = ___)
train <- left_right_matrix_small[___, ]
test <- left_right_matrix_small[-___, ]
# Create a random forest classifier
rfc <- randomForest(x = as.data.frame(as.matrix(___)),
y = ___[___],
nTree = 50)
# Print the results
___