Évaluation d’un classificateur de prédiction du diabète
Dans ce chapitre, vous travaillerez avec le jeu de données diabetes_df
présenté précédemment.
L’objectif est de prédire si chaque individu est susceptible de souffrir de diabète en fonction des caractéristiques indice de masse corporelle (IMC) et âge (en années). Il s’agit donc d’un problème de classification binaire. Une valeur cible de 0
indique que l’individu n’est pas diabétique, tandis qu’une valeur de 1
indique que l’individu est diabétique.
diabetes_df
a été préchargé pour vous en tant que DataFrame pandas et divisé en X_train
, X_test
, y_train
et y_test
. En outre, un classificateur KNeighborsClassifier()
a été instancié et affecté à knn
.
Vous adapterez le modèle, ferez des prédictions sur l’ensemble de test, puis produirez une matrice de confusion et un rapport de classification.
Cet exercice fait partie du cours
Apprentissage supervisé avec scikit-learn
Instructions
- Importez
confusion_matrix
etclassification_report
. - Ajustez le modèle aux données d’apprentissage.
- Faites des prédictions pour les étiquettes de l’ensemble de test, en stockant les résultats sous
y_pred
. - Calculez et affichez la matrice de confusion et le rapport de classification pour les étiquettes testées par rapport aux étiquettes prédites.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import confusion matrix
____
knn = KNeighborsClassifier(n_neighbors=6)
# Fit the model to the training data
____
# Predict the labels of the test data: y_pred
y_pred = ____
# Generate the confusion matrix and classification report
print(____(____, ____))
print(____(____, ____))