MulaiMulai sekarang secara gratis

Contoh pemodelan klasifikasi

Sebelumnya Anda telah menyiapkan sekumpulan tweet berbahasa Rusia untuk klasifikasi. Dari 20.000 tweet, Anda telah memfilter tweet dengan account_type bernilai Left atau Right, dan memilih 2000 tweet pertama dari masing-masing kategori. Anda sudah melakukan tokenisasi tweet menjadi kata, menghapus stop word, dan melakukan stemming. Selain itu, Anda mengonversi frekuensi kata menjadi matriks dokumen-term dengan bobot nilai TFIDF dan menyimpan matriks ini sebagai: left_right_matrix_small.

Anda akan menggunakan matriks ini untuk memprediksi apakah sebuah tweet dihasilkan oleh bot tweet berhaluan kiri atau bot tweet berhaluan kanan. Labelnya dapat ditemukan dalam vektor left_right_labels.

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di R

Lihat Kursus

Petunjuk latihan

  • Tetapkan random seed ke 1111 agar hasil dapat direproduksi.
  • Buat himpunan data pelatihan dan pengujian. Gunakan sampel 75% untuk data pelatihan.
  • Jalankan model random forest pada data pelatihan, gunakan left_right_labels sebagai vektor respons y.
  • Cetak hasil random forest.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

library(randomForest)

# Create train/test split
set.___(___)
sample_size <- floor(___ * nrow(left_right_matrix_small))
train_ind <- ___(nrow(left_right_matrix_small), size = ___)
train <- left_right_matrix_small[___, ]
test <- left_right_matrix_small[-___, ]

# Create a random forest classifier
rfc <- randomForest(x = as.data.frame(as.matrix(___)), 
                    y = ___[___],
                    nTree = 50)
# Print the results
___
Edit dan Jalankan Kode