Canalización para predecir la popularidad de las canciones

En el ejercicio final, construirás una canalización para imputar valores perdidos, escalar características y realizar el ajuste de hiperparámetros de un modelo de regresión logística. El objetivo es encontrar los mejores parámetros y la mayor precisión a la hora de predecir el género de las canciones.

Todos los modelos y objetos necesarios para construir la canalización se han precargado para ti.

Este ejercicio forma parte del curso

Aprendizaje supervisado con scikit-learn

Ver curso

Instrucciones de ejercicio

  • Crea los pasos para la canalización llamando a un imputador simple, a un escalador estándar y a un modelo de regresión logística.
  • Crea un objeto canalización y pásale la variable steps.
  • Instanciar un objeto de búsqueda de cuadrícula para realizar una validación cruzada utilizando la canalización y los parámetros.
  • Imprime los mejores parámetros y calcula e imprime la puntuación de precisión del conjunto de pruebas para el objeto de búsqueda de cuadrícula.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Create steps
steps = [("imp_mean", ____()), 
         ("scaler", ____()), 
         ("logreg", ____())]

# Set up pipeline
pipeline = ____(____)
params = {"logreg__solver": ["newton-cg", "saga", "lbfgs"],
         "logreg__C": np.linspace(0.001, 1.0, 10)}

# Create the GridSearchCV object
tuning = ____(____, param_grid=____)
tuning.fit(X_train, y_train)
y_pred = tuning.predict(X_test)

# Compute and print performance
print("Tuned Logistic Regression Parameters: {}, Accuracy: {}".format(____.____, ____.____))