Mulai sekarangMulai gratis

Analisis sentimen dengan GBM

Sekarang, mari gunakan GradientBoostingClassifier dari scikit-learn pada himpunan data reviews untuk memprediksi sentimen suatu ulasan berdasarkan teksnya.

Kita tidak akan memasukkan teks mentah sebagai input model. Pra-pemrosesan berikut telah dilakukan untuk Anda:

  1. Menghapus ulasan dengan nilai yang hilang.
  2. Memilih data dari 5 aplikasi teratas.
  3. Memilih sub-sampel acak berisi 500 ulasan.
  4. Menghapus "stop words" dari ulasan.
  5. Mengubah ulasan menjadi sebuah matriks, di mana setiap fitur merepresentasikan frekuensi kemunculan kata dalam sebuah ulasan.

Ingin pemahaman yang lebih mendalam tentang text mining? Silakan lihat kursus Introduction to Natural Language Processing in Python!

Latihan ini merupakan bagian dari kursus

Metode Ensemble di Python

Lihat Kursus

Instruksi latihan

  • Bangun sebuah GradientBoostingClassifier dengan 100 estimator dan laju pembelajaran (learning_rate) sebesar 0.1.
  • Hitung prediksi pada himpunan data uji.
  • Hitung akurasi untuk mengevaluasi model.
  • Hitung dan cetak confusion matrix.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Build and fit a Gradient Boosting classifier
clf_gbm = ____(____, ____, random_state=500)
clf_gbm.fit(X_train, y_train)

# Calculate the predictions on the test set
pred = ____

# Evaluate the performance based on the accuracy
acc = ____
print('Accuracy: {:.3f}'.format(acc))

# Get and show the Confusion Matrix
cm = ____
print(cm)
Edit dan Jalankan Kode