Contoh pemodelan klasifikasi
Sebelumnya Anda telah menyiapkan sekumpulan tweet berbahasa Rusia untuk klasifikasi. Dari 20.000 tweet, Anda telah memfilter tweet dengan account_type bernilai Left atau Right, dan memilih 2000 tweet pertama dari masing-masing kategori. Anda sudah melakukan tokenisasi tweet menjadi kata, menghapus stop word, dan melakukan stemming. Selain itu, Anda mengonversi frekuensi kata menjadi matriks dokumen-term dengan bobot nilai TFIDF dan menyimpan matriks ini sebagai: left_right_matrix_small.
Anda akan menggunakan matriks ini untuk memprediksi apakah sebuah tweet dihasilkan oleh bot tweet berhaluan kiri atau bot tweet berhaluan kanan. Labelnya dapat ditemukan dalam vektor left_right_labels.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di R
Petunjuk latihan
- Tetapkan random seed ke
1111agar hasil dapat direproduksi. - Buat himpunan data pelatihan dan pengujian. Gunakan sampel 75% untuk data pelatihan.
- Jalankan model random forest pada data pelatihan, gunakan
left_right_labelssebagai vektor responsy. - Cetak hasil random forest.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
library(randomForest)
# Create train/test split
set.___(___)
sample_size <- floor(___ * nrow(left_right_matrix_small))
train_ind <- ___(nrow(left_right_matrix_small), size = ___)
train <- left_right_matrix_small[___, ]
test <- left_right_matrix_small[-___, ]
# Create a random forest classifier
rfc <- randomForest(x = as.data.frame(as.matrix(___)),
y = ___[___],
nTree = 50)
# Print the results
___