Evaluación de un clasificador de predicción de la diabetes
En este capítulo trabajarás con el conjunto de datos diabetes_df
introducido anteriormente.
El objetivo es predecir si cada individuo tiene o no probabilidades de padecer diabetes basándose en las características índice de masa corporal (IMC) y edad (en años). Por tanto, se trata de un problema de clasificación binaria. Un valor objetivo de 0
indica que el individuo no tiene diabetes, mientras que un valor de 1
indica que el individuo tiene diabetes.
Se ha precargado diabetes_df
como un DataFrame de pandas y se ha dividido en X_train
, X_test
, y_train
e y_test
. Además, se ha instanciado un KNeighborsClassifier()
y se ha asignado a knn
.
Ajustarás el modelo, harás predicciones en el conjunto de pruebas y, a continuación, elaborarás una matriz de confusión y un informe de clasificación.
Este ejercicio forma parte del curso
Aprendizaje supervisado con scikit-learn
Instrucciones del ejercicio
- Importa
confusion_matrix
yclassification_report
. - Ajusta el modelo a los datos de entrenamiento.
- Predice las etiquetas del conjunto de pruebas, almacenando los resultados como
y_pred
. - Calcula e imprime la matriz de confusión y el informe de clasificación de las etiquetas de prueba frente a las etiquetas predichas.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Import confusion matrix
____
knn = KNeighborsClassifier(n_neighbors=6)
# Fit the model to the training data
____
# Predict the labels of the test data: y_pred
y_pred = ____
# Generate the confusion matrix and classification report
print(____(____, ____))
print(____(____, ____))