Visualizar el rendimiento del modelo de clasificación

En este ejercicio, resolverás un problema de clasificación en el que la columna "popularity" del conjunto de datos music_df se ha convertido en valores binarios, en los que 1 representa la popularidad superior o igual a la mediana de la columna "popularity", y 0 indica la popularidad inferior a la mediana.

Tu tarea consiste en construir y visualizar los resultados de tres modelos diferentes para clasificar si una canción es popular o no.

Los datos se han dividido, escalado y precargado para ti como X_train_scaled, X_test_scaled, y_train e y_test. Además, se han importado KNeighborsClassifier, DecisionTreeClassifier y LogisticRegression.

Este ejercicio forma parte del curso

Aprendizaje supervisado con scikit-learn

Instrucciones del ejercicio

Crea un diccionario de "Logistic Regression", "KNN" y "Decision Tree Classifier", estableciendo los valores del diccionario en una llamada de cada modelo.
Recorre los valores de models.
Instancia un objeto KFold para realizar 6 divisiones, estableciendo shuffle en True y random_state en 12.
Realiza una validación cruzada utilizando el modelo, las características de entrenamiento escaladas, el conjunto de entrenamiento objetivo y estableciendo cv igual a kf.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Create models dictionary
models = {"____": ____(), "____": ____(), "____": ____()}
results = []

# Loop through the models' values
for model in ____.____():
  
  # Instantiate a KFold object
  kf = ____(n_splits=____, random_state=____, shuffle=____)
  
  # Perform cross-validation
  cv_results = ____(____, ____, ____, cv=____)
  results.append(cv_results)
plt.boxplot(results, labels=models.keys())
plt.show()

Editar y ejecutar código

Este ejercicio forma parte del curso

Aprendizaje supervisado con scikit-learn

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

En este capítulo, se te presentarán los problemas de clasificación y aprenderás a resolverlos mediante técnicas de aprendizaje supervisado. Aprenderás a dividir los datos en conjuntos de entrenamiento y de prueba, ajustar un modelo, hacer predicciones y evaluar la precisión. Descubrirás la relación entre la complejidad del modelo y el rendimiento, aplicando lo que aprendas a un conjunto de datos de rotación, donde clasificarás el estado de rotación de los clientes de una empresa de telecomunicaciones.

Exercise 1: Machine learning con scikit-learn Exercise 2: Clasificación binaria Exercise 3: El flujo de trabajo del aprendizaje supervisado Exercise 4: El reto de la clasificación Exercise 5: Ajustar KNN: k vecinos más cercanos Exercise 6: Predecir KNN: k vecinos más cercanos Exercise 7: Medir el rendimiento del modelo Exercise 8: División entrenamiento/prueba + cálculo de la precisión Exercise 9: Sobreajuste e infraajuste Exercise 10: Visualizar la complejidad del modelo

En este capítulo, te introducirás en la regresión y construirás modelos para predecir los valores de las ventas utilizando un conjunto de datos sobre gastos publicitarios. Aprenderás la mecánica de la regresión lineal y las métricas de rendimiento más comunes, como r_squared y error cuadrático medio. Realizarás la validación cruzada k-fold y aplicarás la regularización a los modelos de regresión para reducir el riesgo de sobreajuste.

Exercise 1: Introducción a la regresión Exercise 2: Crear características Exercise 3: Construye un modelo de regresión lineal Exercise 4: Visualizar un modelo de regresión lineal Exercise 5: Conceptos básicos de la regresión lineal Exercise 6: Ajustar y predecir para la regresión Exercise 7: Rendimiento de la regresión Exercise 8: Validación cruzada Exercise 9: Validación cruzada para r_squared Exercise 10: Analizar las métricas de validación cruzada Exercise 11: Regresión regularizada Exercise 12: Regresión regularizada: cresta Exercise 13: Regresión Lasso para la importancia de las características

Una vez entrenados los modelos, ahora aprenderás a evaluarlos. En este capítulo, se te presentarán varias métricas junto con una técnica de visualización para analizar el rendimiento de los modelos de clasificación mediante scikit-learn. También aprenderás a optimizar los modelos de clasificación y regresión mediante el uso del ajuste de hiperparámetros.

Exercise 1: ¿Es bueno tu modelo?Exercise 2: Decidir una métrica principal Exercise 3: Evaluación de un clasificador de predicción de la diabetes Exercise 4: Regresión logística y curva ROC Exercise 5: Construir un modelo de regresión logística Exercise 6: La curva ROC Exercise 7: ROC AUC Exercise 8: Optimización de hiperparámetros Exercise 9: Ajuste de hiperparámetros con GridSearchCV Exercise 10: Ajuste de hiperparámetros con RandomizedSearchCV

Aprende a imputar valores perdidos, convertir datos categóricos en valores numéricos, escalar datos, evaluar simultáneamente múltiples modelos de aprendizaje supervisado y construir canalizaciones para agilizar tu flujo de trabajo.

Exercise 1: Preprocesamiento de datos Exercise 2: Crear variables ficticias Exercise 3: Regresión con características categóricas Exercise 4: Tratamiento de los datos que faltan Exercise 5: Eliminar los datos que faltan Exercise 6: Canalización para predecir el género de las canciones I Exercise 7: Canalización para predecir el género de las canciones II Exercise 8: Centrado y escalado Exercise 9: Centrado y escalado para la regresión Exercise 10: Centrado y escalado para la clasificación Exercise 11: Evaluar varios modelos Exercise 12: Visualizar el rendimiento del modelo de regresión Exercise 13: Predecir en el conjunto de pruebas Exercise 14: Visualizar el rendimiento del modelo de clasificación

Ejercicio actual

Exercise 15: Canalización para predecir la popularidad de las canciones Exercise 16: ¡Enhorabuena!