Mulai sekarangMulai gratis

Logistic regression dan pemilihan fitur

Dalam latihan ini, kita akan melakukan pemilihan fitur pada himpunan data sentimen ulasan film menggunakan regularization L1. Fitur dan target sudah dimuat untuk Anda di X_train dan y_train.

Kita akan mencari nilai C terbaik menggunakan GridSearchCV() dari scikit-learn, yang telah dibahas dalam kursus prasyarat.

Latihan ini merupakan bagian dari kursus

Klasifikator Linear di Python

Lihat Kursus

Instruksi latihan

  • Instansiasikan objek logistic regression yang menggunakan regularization L1.
  • Temukan nilai C yang meminimalkan galat validasi silang.
  • Cetak jumlah fitur terpilih untuk nilai C tersebut.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Specify L1 regularization
lr = LogisticRegression(solver='liblinear', ____)

# Instantiate the GridSearchCV object and run the search
searcher = GridSearchCV(lr, {'C':[0.001, 0.01, 0.1, 1, 10]})
searcher.fit(X_train, y_train)

# Report the best parameters
print("Best CV params", searcher.best_params_)

# Find the number of nonzero coefficients (selected features)
best_lr = searcher.best_estimator_
coefs = best_lr.____
print("Total number of features:", coefs.size)
print("Number of selected features:", np.count_nonzero(coefs))
Edit dan Jalankan Kode