Analisis sentimen dengan GBM
Sekarang, mari gunakan GradientBoostingClassifier dari scikit-learn pada himpunan data reviews untuk memprediksi sentimen suatu ulasan berdasarkan teksnya.
Kita tidak akan memasukkan teks mentah sebagai input model. Pra-pemrosesan berikut telah dilakukan untuk Anda:
- Menghapus ulasan dengan nilai yang hilang.
- Memilih data dari 5 aplikasi teratas.
- Memilih sub-sampel acak berisi 500 ulasan.
- Menghapus "stop words" dari ulasan.
- Mengubah ulasan menjadi sebuah matriks, di mana setiap fitur merepresentasikan frekuensi kemunculan kata dalam sebuah ulasan.
Ingin pemahaman yang lebih mendalam tentang text mining? Silakan lihat kursus Introduction to Natural Language Processing in Python!
Latihan ini adalah bagian dari kursus
Metode Ensemble di Python
Petunjuk latihan
- Bangun sebuah
GradientBoostingClassifierdengan100estimator dan laju pembelajaran (learning_rate) sebesar0.1. - Hitung prediksi pada himpunan data uji.
- Hitung akurasi untuk mengevaluasi model.
- Hitung dan cetak confusion matrix.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Build and fit a Gradient Boosting classifier
clf_gbm = ____(____, ____, random_state=500)
clf_gbm.fit(X_train, y_train)
# Calculate the predictions on the test set
pred = ____
# Evaluate the performance based on the accuracy
acc = ____
print('Accuracy: {:.3f}'.format(acc))
# Get and show the Confusion Matrix
cm = ____
print(cm)