Membangun dan mengevaluasi model: ulasan film
Pada soal ini, Anda akan membangun model logistic regression menggunakan himpunan data movies. Skor disimpan di kolom label dan bernilai 1 jika ulasan positif, serta 0 jika negatif. Teks ulasan telah diubah menggunakan BOW menjadi kolom numerik.
Anda sudah membangun sebuah classifier, tetapi mengevaluasinya menggunakan data yang sama dengan data pelatihan. Pastikan kini Anda menilai model menggunakan himpunan data uji yang belum pernah dilihat. Bagaimana kinerja model berubah saat dievaluasi pada data uji?
Latihan ini adalah bagian dari kursus
Analisis Sentimen dengan Python
Petunjuk latihan
- Impor fungsi yang diperlukan untuk melakukan train/test split.
- Lakukan train/test split, dengan menentukan bahwa 20% data digunakan sebagai himpunan data uji.
- Latih model logistic regression.
- Cetak akurasi model pada data pelatihan dan pada data pengujian.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the required packages
from sklearn.linear_model import LogisticRegression
____
# Define the vector of labels and matrix of features
y = movies.label
X = movies.drop('label', axis=1)
# Perform the train-test split
X_train, X_test, y_train, y_test = ____(X, y, ____=0.2, random_state=42)
# Build a logistic regression model and print out the accuracy
log_reg = ____.____
print('Accuracy on train set: ', log_reg.____(____, ____))
print('Accuracy on test set: ', log_reg.____(____, ____))