MulaiMulai sekarang secara gratis

Langkah 3: Membangun classifier

Ini adalah langkah terakhir dalam prediksi analisis sentimen. Kita telah menelusuri dan memperkaya himpunan data dengan fitur-fitur terkait sentimen, serta membuat vektor numerik darinya.

Anda akan menggunakan himpunan data yang telah Anda bangun pada langkah sebelumnya. Himpunan data tersebut berisi satu fitur untuk panjang ulasan, dan 200 fitur yang dibuat dengan Tfidf vectorizer.

Tugas Anda adalah melatih logistic regression untuk memprediksi sentimen. Datanya sudah diimpor untuk Anda dan bernama reviews_transformed. Targetnya bernama score dan bersifat biner: 1 ketika ulasan produk bersentimen positif dan 0 jika tidak.

Latih model logistic regression dan evaluasi kinerjanya pada data uji. Seberapa baik kinerja modelnya?

Semua paket yang diperlukan telah diimpor untuk Anda.

Latihan ini adalah bagian dari kursus

Analisis Sentimen dengan Python

Lihat Kursus

Petunjuk latihan

  • Lakukan pembagian train/test, alokasikan 20% data untuk pengujian dan tetapkan random seed ke 456.
  • Latih model logistic regression.
  • Prediksi kelas.
  • Cetak skor akurasi dan confusion matrix pada himpunan uji.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Define X and y
y = reviews_transformed.score
X = reviews_transformed.drop('score', axis=1)

# Train/test split
X_train, X_test, y_train, y_test = ____(____, ____, ____=0.2, ____=456)

# Train a logistic regression
log_reg = ____.____(____, ____)
# Predict the labels
y_predicted = log_reg.____(____)

# Print accuracy score and confusion matrix on test set
print('Accuracy on the test set: ', ____(____, ____))
print(____(____, ____)/len(y_test))
Edit dan Jalankan Kode