MulaiMulai sekarang secara gratis

Logistic regression dan pemilihan fitur

Dalam latihan ini, kita akan melakukan pemilihan fitur pada himpunan data sentimen ulasan film menggunakan regularization L1. Fitur dan target sudah dimuat untuk Anda di X_train dan y_train.

Kita akan mencari nilai C terbaik menggunakan GridSearchCV() dari scikit-learn, yang telah dibahas dalam kursus prasyarat.

Latihan ini adalah bagian dari kursus

Klasifikator Linear di Python

Lihat Kursus

Petunjuk latihan

  • Instansiasikan objek logistic regression yang menggunakan regularization L1.
  • Temukan nilai C yang meminimalkan galat validasi silang.
  • Cetak jumlah fitur terpilih untuk nilai C tersebut.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Specify L1 regularization
lr = LogisticRegression(solver='liblinear', ____)

# Instantiate the GridSearchCV object and run the search
searcher = GridSearchCV(lr, {'C':[0.001, 0.01, 0.1, 1, 10]})
searcher.fit(X_train, y_train)

# Report the best parameters
print("Best CV params", searcher.best_params_)

# Find the number of nonzero coefficients (selected features)
best_lr = searcher.best_estimator_
coefs = best_lr.____
print("Total number of features:", coefs.size)
print("Number of selected features:", np.count_nonzero(coefs))
Edit dan Jalankan Kode