Ulasan produk dengan regularisasi
Pada latihan ini, Anda akan kembali bekerja dengan himpunan data reviews berisi ulasan produk Amazon. Vektor label y memuat sentimen: 1 jika positif dan 0 jika tidak. Matriks X berisi semua fitur numerik yang dibuat menggunakan pendekatan BOW.
Anda perlu melatih dua model regresi logistik dengan tingkat regularisasi yang berbeda dan membandingkan performanya pada data uji. Ingat bahwa regularisasi adalah cara untuk mengendalikan kompleksitas model. Semakin teratur (ter-regularisasi) sebuah model, semakin kurang fleksibel, tetapi semakin baik kemampuan generalisasinya. Model dengan tingkat regularisasi lebih tinggi sering kali kurang akurat dibandingkan model tanpa regularisasi.
Latihan ini adalah bagian dari kursus
Analisis Sentimen dengan Python
Petunjuk latihan
- Bagi data menjadi himpunan train dan test.
- Latih regresi logistik dengan parameter regularisasi
1000. Latih regresi logistik kedua dengan parameter regularisasi0.001. - Cetak skor akurasi kedua model pada himpunan test.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Split data into training and testing
____, ____, ____, ____ = train_test_split(____, ____, test_size=0.2, random_state=123)
# Train a logistic regression with regularization of 1000
log_reg1 = ____(____=1000).fit(X_train, y_train)
# Train a logistic regression with regularization of 0.001
log_reg2 = ____(____=0.001).fit(X_train, y_train)
# Print the accuracies
print('Accuracy of model 1: ', log_reg1.____(____, ____))
print('Accuracy of model 2: ', log_reg2.____(____, ____))