Ulasan produk dengan regularisasi

Pada latihan ini, Anda akan kembali bekerja dengan himpunan data reviews berisi ulasan produk Amazon. Vektor label y memuat sentimen: 1 jika positif dan 0 jika tidak. Matriks X berisi semua fitur numerik yang dibuat menggunakan pendekatan BOW.

Anda perlu melatih dua model regresi logistik dengan tingkat regularisasi yang berbeda dan membandingkan performanya pada data uji. Ingat bahwa regularisasi adalah cara untuk mengendalikan kompleksitas model. Semakin teratur (ter-regularisasi) sebuah model, semakin kurang fleksibel, tetapi semakin baik kemampuan generalisasinya. Model dengan tingkat regularisasi lebih tinggi sering kali kurang akurat dibandingkan model tanpa regularisasi.

Latihan ini merupakan bagian dari kursus

Analisis Sentimen dengan Python

Lihat Kursus

Instruksi latihan

Bagi data menjadi himpunan train dan test.
Latih regresi logistik dengan parameter regularisasi 1000. Latih regresi logistik kedua dengan parameter regularisasi 0.001.
Cetak skor akurasi kedua model pada himpunan test.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Split data into training and testing
____, ____, ____, ____ = train_test_split(____, ____, test_size=0.2, random_state=123)

# Train a logistic regression with regularization of 1000
log_reg1 = ____(____=1000).fit(X_train, y_train)
# Train a logistic regression with regularization of 0.001
log_reg2 = ____(____=0.001).fit(X_train, y_train)

# Print the accuracies
print('Accuracy of model 1: ', log_reg1.____(____, ____))
print('Accuracy of model 2: ', log_reg2.____(____, ____))

Edit dan Jalankan Kode