Evaluación de un clasificador de predicción de la diabetes
En este capítulo trabajarás con el conjunto de datos diabetes_df introducido anteriormente.
El objetivo es predecir si cada individuo tiene o no probabilidades de padecer diabetes basándose en las características índice de masa corporal (IMC) y edad (en años). Por tanto, se trata de un problema de clasificación binaria. Un valor objetivo de 0 indica que el individuo no tiene diabetes, mientras que un valor de 1 indica que el individuo tiene diabetes.
Se ha precargado diabetes_df como un DataFrame de pandas y se ha dividido en X_train, X_test, y_train e y_test. Además, se ha instanciado un KNeighborsClassifier() y se ha asignado a knn.
Ajustarás el modelo, harás predicciones en el conjunto de pruebas y, a continuación, elaborarás una matriz de confusión y un informe de clasificación.
Este ejercicio forma parte del curso
Aprendizaje supervisado con scikit-learn
Instrucciones del ejercicio
- Importa
confusion_matrixyclassification_report. - Ajusta el modelo a los datos de entrenamiento.
- Predice las etiquetas del conjunto de pruebas, almacenando los resultados como
y_pred. - Calcula e imprime la matriz de confusión y el informe de clasificación de las etiquetas de prueba frente a las etiquetas predichas.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import confusion matrix
____
knn = KNeighborsClassifier(n_neighbors=6)
# Fit the model to the training data
____
# Predict the labels of the test data: y_pred
y_pred = ____
# Generate the confusion matrix and classification report
print(____(____, ____))
print(____(____, ____))