Contoh pemodelan klasifikasi

Sebelumnya Anda telah menyiapkan sekumpulan tweet berbahasa Rusia untuk klasifikasi. Dari 20.000 tweet, Anda telah memfilter tweet dengan account_type bernilai Left atau Right, dan memilih 2000 tweet pertama dari masing-masing kategori. Anda sudah melakukan tokenisasi tweet menjadi kata, menghapus stop word, dan melakukan stemming. Selain itu, Anda mengonversi frekuensi kata menjadi matriks dokumen-term dengan bobot nilai TFIDF dan menyimpan matriks ini sebagai: left_right_matrix_small.

Anda akan menggunakan matriks ini untuk memprediksi apakah sebuah tweet dihasilkan oleh bot tweet berhaluan kiri atau bot tweet berhaluan kanan. Labelnya dapat ditemukan dalam vektor left_right_labels.

Latihan ini merupakan bagian dari kursus

Pengantar Natural Language Processing di R

Lihat Kursus

Instruksi latihan

Tetapkan random seed ke 1111 agar hasil dapat direproduksi.
Buat himpunan data pelatihan dan pengujian. Gunakan sampel 75% untuk data pelatihan.
Jalankan model random forest pada data pelatihan, gunakan left_right_labels sebagai vektor respons y.
Cetak hasil random forest.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

library(randomForest)

# Create train/test split
set.___(___)
sample_size <- floor(___ * nrow(left_right_matrix_small))
train_ind <- ___(nrow(left_right_matrix_small), size = ___)
train <- left_right_matrix_small[___, ]
test <- left_right_matrix_small[-___, ]

# Create a random forest classifier
rfc <- randomForest(x = as.data.frame(as.matrix(___)), 
                    y = ___[___],
                    nTree = 50)
# Print the results
___

Edit dan Jalankan Kode

Pengantar Natural Language Processing di R

SkillTag.level.intermediateSkillTag.label

4.8+

40 reviews

Bab 1 dari Pengantar Natural Langauge Processing mempersiapkan Anda untuk menjalankan analisis teks pertama Anda. Anda akan mempelajari regular expression dan tokenisasi, dua komponen paling umum dalam sebagian besar tugas analisis. Dengan regular expression, Anda dapat mencari pola apa pun yang Anda bayangkan, dan dengan tokenisasi, Anda dapat menyiapkan dan membersihkan teks untuk analisis yang lebih canggih. Bab ini penting untuk menerapkan teknik-teknik yang akan kita pelajari di bab-bab berikutnya dalam kursus ini.

Exercise 1: Dasar-dasar regular expression Exercise 2: Berlatih sintaks dengan grep Exercise 3: Mengeksplorasi fungsi regular expression.Exercise 4: Tokenisasi Exercise 5: Fungsi-fungsi tidytext Exercise 6: Tokenisasi: kalimat Exercise 7: Dasar-dasar pembersihan teks Exercise 8: Prapemrosesan teks: hapus stop word Exercise 9: Prapemrosesan teks: Stemming

Pada bab 4 kita membahas dua teknik utama dalam natural language processing, analisis sentimen dan word embedding. Keduanya merupakan teknik analisis yang wajib dipahami bagi siapa pun yang mempelajari dasar-dasar analisis teks. Selain itu, Anda akan mempelajari secara singkat tentang BERT, part-of-speech tagging, dan named entity recognition. Hampir 15 teknik analisis berbeda dibahas dalam kursus ini, sehingga bab 4 ditutup dengan merangkum semua teknik hebat yang akan Anda pelajari dalam kursus ini.

Exercise 1: Analisis sentimen Exercise 2: leksikon tidytext Exercise 3: Skor sentimen Exercise 4: Sentimen dan emosi Exercise 5: Word embeddings Exercise 6: Latihan h2o Exercise 7: word2vec Exercise 8: Analisis NLP tambahan Exercise 9: Meninjau metode #1 Exercise 10: Tinjau metode #2 Exercise 11: Kesimpulan