Regressão logística e seleção de atributos
Neste exercício, vamos fazer seleção de atributos no conjunto de dados de sentimento de críticas de filmes usando regularização L1. As features e os targets já estão carregados para você em X_train e y_train.
Vamos buscar o melhor valor de C usando o GridSearchCV() do scikit-learn, que foi abordado no curso pré-requisito.
Este exercício faz parte do curso
Classificadores Lineares em Python
Instruções do exercício
- Crie (instancie) um objeto de regressão logística que use regularização L1.
- Encontre o valor de
Cque minimize o erro de validação cruzada. - Imprima o número de features selecionadas para esse valor de
C.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Specify L1 regularization
lr = LogisticRegression(solver='liblinear', ____)
# Instantiate the GridSearchCV object and run the search
searcher = GridSearchCV(lr, {'C':[0.001, 0.01, 0.1, 1, 10]})
searcher.fit(X_train, y_train)
# Report the best parameters
print("Best CV params", searcher.best_params_)
# Find the number of nonzero coefficients (selected features)
best_lr = searcher.best_estimator_
coefs = best_lr.____
print("Total number of features:", coefs.size)
print("Number of selected features:", np.count_nonzero(coefs))