¡Tu primer pipeline, otra vez!
De vuelta en la startup de arritmias, se acerca tu revisión mensual y, como parte de ella, una persona experta en Python revisará tu código. Decides dejarlo todo más limpio siguiendo buenas prácticas y reemplazar tu script de selección de características y clasificación con random forest por un pipeline. Estás usando un conjunto de entrenamiento disponible como X_train y y_train, y varios módulos: RandomForestClassifier, SelectKBest() y f_classif() para la selección de características, además de GridSearchCV y Pipeline.
Este ejercicio forma parte del curso
Diseño de flujos de trabajo de Machine Learning en Python
Instrucciones del ejercicio
- Crea un pipeline con el selector de características dado en el código de ejemplo y un clasificador random forest. Nombra el primer paso
feature_selection. - Añade dos pares clave-valor en
params: uno para el número de característicaskdel selector con valores 10 y 20, y otro paran_estimatorsdel bosque con valores posibles 2 y 5. - Inicializa un objeto
GridSearchCVcon el pipeline y la rejilla de parámetros dados. - Ajusta el objeto a los datos e imprime la mejor combinación de parámetros.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create pipeline with feature selector and classifier
pipe = ___([
(___, SelectKBest(f_classif)),
('clf', ___(random_state=2))])
# Create a parameter grid
params = {
'feature_selection__k':___,
___:[2, 5]}
# Initialize the grid search object
grid_search = ___(___, ___=params)
# Fit it to the data and print the best value combination
print(grid_search.fit(___, ___).___)