Logistic regression dan pemilihan fitur

Dalam latihan ini, kita akan melakukan pemilihan fitur pada himpunan data sentimen ulasan film menggunakan regularization L1. Fitur dan target sudah dimuat untuk Anda di X_train dan y_train.

Kita akan mencari nilai C terbaik menggunakan GridSearchCV() dari scikit-learn, yang telah dibahas dalam kursus prasyarat.

Latihan ini merupakan bagian dari kursus

Klasifikator Linear di Python

Lihat Kursus

Instruksi latihan

Instansiasikan objek logistic regression yang menggunakan regularization L1.
Temukan nilai C yang meminimalkan galat validasi silang.
Cetak jumlah fitur terpilih untuk nilai C tersebut.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Specify L1 regularization
lr = LogisticRegression(solver='liblinear', ____)

# Instantiate the GridSearchCV object and run the search
searcher = GridSearchCV(lr, {'C':[0.001, 0.01, 0.1, 1, 10]})
searcher.fit(X_train, y_train)

# Report the best parameters
print("Best CV params", searcher.best_params_)

# Find the number of nonzero coefficients (selected features)
best_lr = searcher.best_estimator_
coefs = best_lr.____
print("Total number of features:", coefs.size)
print("Number of selected features:", np.count_nonzero(coefs))

Edit dan Jalankan Kode