Evaluación de un clasificador de predicción de la diabetes

En este capítulo trabajarás con el conjunto de datos diabetes_df introducido anteriormente.

El objetivo es predecir si cada individuo tiene o no probabilidades de padecer diabetes basándose en las características índice de masa corporal (IMC) y edad (en años). Por tanto, se trata de un problema de clasificación binaria. Un valor objetivo de 0 indica que el individuo no tiene diabetes, mientras que un valor de 1 indica que el individuo tiene diabetes.

Se ha precargado diabetes_df como un DataFrame de pandas y se ha dividido en X_train, X_test, y_train e y_test. Además, se ha instanciado un KNeighborsClassifier() y se ha asignado a knn.

Ajustarás el modelo, harás predicciones en el conjunto de pruebas y, a continuación, elaborarás una matriz de confusión y un informe de clasificación.

Este ejercicio forma parte del curso

Aprendizaje supervisado con scikit-learn

Instrucciones del ejercicio

Importa confusion_matrix y classification_report.
Ajusta el modelo a los datos de entrenamiento.
Predice las etiquetas del conjunto de pruebas, almacenando los resultados como y_pred.
Calcula e imprime la matriz de confusión y el informe de clasificación de las etiquetas de prueba frente a las etiquetas predichas.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import confusion matrix
____

knn = KNeighborsClassifier(n_neighbors=6)

# Fit the model to the training data
____

# Predict the labels of the test data: y_pred
y_pred = ____

# Generate the confusion matrix and classification report
print(____(____, ____))
print(____(____, ____))

Editar y ejecutar código

Este ejercicio forma parte del curso

Aprendizaje supervisado con scikit-learn

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

En este capítulo, se te presentarán los problemas de clasificación y aprenderás a resolverlos mediante técnicas de aprendizaje supervisado. Aprenderás a dividir los datos en conjuntos de entrenamiento y de prueba, ajustar un modelo, hacer predicciones y evaluar la precisión. Descubrirás la relación entre la complejidad del modelo y el rendimiento, aplicando lo que aprendas a un conjunto de datos de rotación, donde clasificarás el estado de rotación de los clientes de una empresa de telecomunicaciones.

Exercise 1: Machine learning con scikit-learn Exercise 2: Clasificación binaria Exercise 3: El flujo de trabajo del aprendizaje supervisado Exercise 4: El reto de la clasificación Exercise 5: Ajustar KNN: k vecinos más cercanos Exercise 6: Predecir KNN: k vecinos más cercanos Exercise 7: Medir el rendimiento del modelo Exercise 8: División entrenamiento/prueba + cálculo de la precisión Exercise 9: Sobreajuste e infraajuste Exercise 10: Visualizar la complejidad del modelo

En este capítulo, te introducirás en la regresión y construirás modelos para predecir los valores de las ventas utilizando un conjunto de datos sobre gastos publicitarios. Aprenderás la mecánica de la regresión lineal y las métricas de rendimiento más comunes, como r_squared y error cuadrático medio. Realizarás la validación cruzada k-fold y aplicarás la regularización a los modelos de regresión para reducir el riesgo de sobreajuste.

Exercise 1: Introducción a la regresión Exercise 2: Crear características Exercise 3: Construye un modelo de regresión lineal Exercise 4: Visualizar un modelo de regresión lineal Exercise 5: Conceptos básicos de la regresión lineal Exercise 6: Ajustar y predecir para la regresión Exercise 7: Rendimiento de la regresión Exercise 8: Validación cruzada Exercise 9: Validación cruzada para r_squared Exercise 10: Analizar las métricas de validación cruzada Exercise 11: Regresión regularizada Exercise 12: Regresión regularizada: cresta Exercise 13: Regresión Lasso para la importancia de las características

Una vez entrenados los modelos, ahora aprenderás a evaluarlos. En este capítulo, se te presentarán varias métricas junto con una técnica de visualización para analizar el rendimiento de los modelos de clasificación mediante scikit-learn. También aprenderás a optimizar los modelos de clasificación y regresión mediante el uso del ajuste de hiperparámetros.

Exercise 1: ¿Es bueno tu modelo?Exercise 2: Decidir una métrica principal Exercise 3: Evaluación de un clasificador de predicción de la diabetes

Ejercicio actual

Exercise 4: Regresión logística y curva ROC Exercise 5: Construir un modelo de regresión logística Exercise 6: La curva ROC Exercise 7: ROC AUC Exercise 8: Optimización de hiperparámetros Exercise 9: Ajuste de hiperparámetros con GridSearchCV Exercise 10: Ajuste de hiperparámetros con RandomizedSearchCV

Aprende a imputar valores perdidos, convertir datos categóricos en valores numéricos, escalar datos, evaluar simultáneamente múltiples modelos de aprendizaje supervisado y construir canalizaciones para agilizar tu flujo de trabajo.

Exercise 1: Preprocesamiento de datos Exercise 2: Crear variables ficticias Exercise 3: Regresión con características categóricas Exercise 4: Tratamiento de los datos que faltan Exercise 5: Eliminar los datos que faltan Exercise 6: Canalización para predecir el género de las canciones I Exercise 7: Canalización para predecir el género de las canciones II Exercise 8: Centrado y escalado Exercise 9: Centrado y escalado para la regresión Exercise 10: Centrado y escalado para la clasificación Exercise 11: Evaluar varios modelos Exercise 12: Visualizar el rendimiento del modelo de regresión Exercise 13: Predecir en el conjunto de pruebas Exercise 14: Visualizar el rendimiento del modelo de clasificación Exercise 15: Canalización para predecir la popularidad de las canciones Exercise 16: ¡Enhorabuena!