Metrik kinerja pada data Twitter
Anda akan melatih model logistic regression yang memprediksi sentimen tweet dan mengevaluasi kinerjanya pada himpunan uji menggunakan berbagai metrik.
Matriks X telah dibuat untuk Anda. Matriks ini berisi fitur yang dibangun dengan BOW pada kolom text.
Label disimpan dalam vektor bernama y. Vektor y bernilai 0 untuk tweet negatif, 1 untuk netral, dan 2 untuk positif.
Perhatikan bahwa meskipun kita memiliki 3 kelas, ini tetap merupakan masalah klasifikasi. Akurasi tetap mengukur proporsi instance yang diprediksi dengan benar. Confusion matrix sekarang berukuran 3x3; setiap baris menyatakan jumlah kasus yang diprediksi untuk kelas 2, 1, dan 0, dan setiap kolom menyatakan jumlah kasus sebenarnya pada kelas 2, 1, dan 0.
Semua paket yang diperlukan telah diimpor untuk Anda.
Latihan ini adalah bagian dari kursus
Analisis Sentimen dengan Python
Petunjuk latihan
- Lakukan pembagian train/test, dan lakukan stratifikasi berdasarkan
y. - Latih sebuah classifier logistic regression.
- Prediksi kinerja pada himpunan uji.
- Cetak accuracy score dan confusion matrix yang diperoleh pada himpunan uji.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Split the data into training and testing sets
X_train, X_test, y_train, y_test = ____(X, y, test_size=0.3, random_state=123, ____=y)
# Train a logistic regression
log_reg = ____.____(___, ____)
# Make predictions on the test set
y_predicted = log_reg.____(___)
# Print the performance metrics
print('Accuracy score test set: ', ____(y_test, y_predicted))
print('Confusion matrix test set: \n', ____(y_test, y_predicted)/len(y_test))