Pipeline para previsão da popularidade de músicas
No exercício final, você deve criar um pipeline para imputar valores faltantes, fazer o escalonamento de variáveis independentes e realizar o ajuste de hiperparâmetros de um modelo de regressão logística. O objetivo é encontrar os melhores parâmetros e a melhor precisão ao prever o gênero das músicas!
Todos os modelos e objetos necessários para criar o pipeline foram pré-carregados para você.
Este exercício faz parte do curso
Aprendizado Supervisionado com o scikit-learn
Instruções de exercício
- Crie as etapas do pipeline chamando um imputador simples, um escalonador padrão e um modelo de regressão logística.
- Crie um objeto de pipeline e passe a variável
steps
. - Instancie um objeto de pesquisa em grade para fazer a validação cruzada usando o pipeline e os parâmetros.
- Imprima os melhores parâmetros e calcule e imprima a pontuação de precisão do conjunto de teste para o objeto de pesquisa em grade.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Create steps
steps = [("imp_mean", ____()),
("scaler", ____()),
("logreg", ____())]
# Set up pipeline
pipeline = ____(____)
params = {"logreg__solver": ["newton-cg", "saga", "lbfgs"],
"logreg__C": np.linspace(0.001, 1.0, 10)}
# Create the GridSearchCV object
tuning = ____(____, param_grid=____)
tuning.fit(X_train, y_train)
y_pred = tuning.predict(X_test)
# Compute and print performance
print("Tuned Logistic Regression Parameters: {}, Accuracy: {}".format(____.____, ____.____))