Pipeline para previsão da popularidade de músicas

No exercício final, você deve criar um pipeline para imputar valores faltantes, fazer o escalonamento de variáveis independentes e realizar o ajuste de hiperparâmetros de um modelo de regressão logística. O objetivo é encontrar os melhores parâmetros e a melhor precisão ao prever o gênero das músicas!

Todos os modelos e objetos necessários para criar o pipeline foram pré-carregados para você.

Este exercício faz parte do curso

Aprendizado Supervisionado com o scikit-learn

Ver Curso

Instruções de exercício

  • Crie as etapas do pipeline chamando um imputador simples, um escalonador padrão e um modelo de regressão logística.
  • Crie um objeto de pipeline e passe a variável steps.
  • Instancie um objeto de pesquisa em grade para fazer a validação cruzada usando o pipeline e os parâmetros.
  • Imprima os melhores parâmetros e calcule e imprima a pontuação de precisão do conjunto de teste para o objeto de pesquisa em grade.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Create steps
steps = [("imp_mean", ____()), 
         ("scaler", ____()), 
         ("logreg", ____())]

# Set up pipeline
pipeline = ____(____)
params = {"logreg__solver": ["newton-cg", "saga", "lbfgs"],
         "logreg__C": np.linspace(0.001, 1.0, 10)}

# Create the GridSearchCV object
tuning = ____(____, param_grid=____)
tuning.fit(X_train, y_train)
y_pred = tuning.predict(X_test)

# Compute and print performance
print("Tuned Logistic Regression Parameters: {}, Accuracy: {}".format(____.____, ____.____))