ComenzarEmpieza gratis

¡Tu primer pipeline, otra vez!

De vuelta en la startup de arritmias, se acerca tu revisión mensual y, como parte de ella, una persona experta en Python revisará tu código. Decides dejarlo todo más limpio siguiendo buenas prácticas y reemplazar tu script de selección de características y clasificación con random forest por un pipeline. Estás usando un conjunto de entrenamiento disponible como X_train y y_train, y varios módulos: RandomForestClassifier, SelectKBest() y f_classif() para la selección de características, además de GridSearchCV y Pipeline.

Este ejercicio forma parte del curso

Diseño de flujos de trabajo de Machine Learning en Python

Ver curso

Instrucciones del ejercicio

  • Crea un pipeline con el selector de características dado en el código de ejemplo y un clasificador random forest. Nombra el primer paso feature_selection.
  • Añade dos pares clave-valor en params: uno para el número de características k del selector con valores 10 y 20, y otro para n_estimators del bosque con valores posibles 2 y 5.
  • Inicializa un objeto GridSearchCV con el pipeline y la rejilla de parámetros dados.
  • Ajusta el objeto a los datos e imprime la mejor combinación de parámetros.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create pipeline with feature selector and classifier
pipe = ___([
    (___, SelectKBest(f_classif)),
    ('clf', ___(random_state=2))])

# Create a parameter grid
params = {
   'feature_selection__k':___,
    ___:[2, 5]}

# Initialize the grid search object
grid_search = ___(___, ___=params)

# Fit it to the data and print the best value combination
print(grid_search.fit(___, ___).___)
Editar y ejecutar código