Metrik kinerja pada data Twitter

Anda akan melatih model logistic regression yang memprediksi sentimen tweet dan mengevaluasi kinerjanya pada himpunan uji menggunakan berbagai metrik.

Matriks X telah dibuat untuk Anda. Matriks ini berisi fitur yang dibangun dengan BOW pada kolom text.

Label disimpan dalam vektor bernama y. Vektor y bernilai 0 untuk tweet negatif, 1 untuk netral, dan 2 untuk positif. Perhatikan bahwa meskipun kita memiliki 3 kelas, ini tetap merupakan masalah klasifikasi. Akurasi tetap mengukur proporsi instance yang diprediksi dengan benar. Confusion matrix sekarang berukuran 3x3; setiap baris menyatakan jumlah kasus yang diprediksi untuk kelas 2, 1, dan 0, dan setiap kolom menyatakan jumlah kasus sebenarnya pada kelas 2, 1, dan 0.

Semua paket yang diperlukan telah diimpor untuk Anda.

Latihan ini merupakan bagian dari kursus

Analisis Sentimen dengan Python

Lihat Kursus

Instruksi latihan

Lakukan pembagian train/test, dan lakukan stratifikasi berdasarkan y.
Latih sebuah classifier logistic regression.
Prediksi kinerja pada himpunan uji.
Cetak accuracy score dan confusion matrix yang diperoleh pada himpunan uji.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = ____(X, y, test_size=0.3, random_state=123, ____=y)

# Train a logistic regression
log_reg = ____.____(___, ____)

# Make predictions on the test set
y_predicted = log_reg.____(___)

# Print the performance metrics
print('Accuracy score test set: ', ____(y_test, y_predicted))
print('Confusion matrix test set: \n', ____(y_test, y_predicted)/len(y_test))

Edit dan Jalankan Kode