Évaluation d’un classificateur de prédiction du diabète

Dans ce chapitre, vous travaillerez avec le jeu de données diabetes_df présenté précédemment.

L’objectif est de prédire si chaque individu est susceptible de souffrir de diabète en fonction des caractéristiques indice de masse corporelle (IMC) et âge (en années). Il s’agit donc d’un problème de classification binaire. Une valeur cible de 0 indique que l’individu n’est pas diabétique, tandis qu’une valeur de 1 indique que l’individu est diabétique.

diabetes_df a été préchargé pour vous en tant que DataFrame pandas et divisé en X_train, X_test, y_train et y_test. En outre, un classificateur KNeighborsClassifier() a été instancié et affecté à knn.

Vous adapterez le modèle, ferez des prédictions sur l’ensemble de test, puis produirez une matrice de confusion et un rapport de classification.

Cet exercice fait partie du cours

<cours>Apprentissage supervisé avec scikit-learn</cours>

Instructions de l’exercice

Importez confusion_matrix et classification_report.
Ajustez le modèle aux données d’apprentissage.
Faites des prédictions pour les étiquettes de l’ensemble de test, en stockant les résultats sous y_pred.
Calculez et affichez la matrice de confusion et le rapport de classification pour les étiquettes testées par rapport aux étiquettes prédites.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import confusion matrix
____

knn = KNeighborsClassifier(n_neighbors=6)

# Fit the model to the training data
____

# Predict the labels of the test data: y_pred
y_pred = ____

# Generate the confusion matrix and classification report
print(____(____, ____))
print(____(____, ____))

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Apprentissage supervisé avec scikit-learn</cours>

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Dans ce chapitre, vous découvrirez les problèmes de classification et apprendrez à les résoudre à l’aide de techniques d’apprentissage supervisé. Vous apprendrez à diviser les données en ensembles d’apprentissage et de test, à adapter un modèle, à faire des prédictions et à évaluer la précision. Vous découvrirez la relation entre la complexité du modèle et la performance, en appliquant ce que vous avez appris à un ensemble de données sur le taux de perte de clients, où vous classerez l’état de désabonnement des clients d’une entreprise de télécommunications.

Exercise 1: Machine learning avec scikit-learn Exercise 2: Classification binaire Exercise 3: Le flux de travail d’apprentissage supervisé Exercise 4: Le défi de la classification Exercise 5: k voisins les plus proches : ajustement Exercise 6: k voisins les plus proches : prédiction Exercise 7: Mesurer la performance du modèle Exercise 8: Séparation apprentissage/test et calcul de la précision Exercise 9: Surajustement et sous-ajustement Exercise 10: Visualiser la complexité du modèle

Dans ce chapitre, vous découvrirez la régression et vous construirez des modèles pour prédire les valeurs des ventes à l’aide d’un ensemble de données sur les dépenses publicitaires. Vous apprendrez les mécanismes de la régression linéaire et les métriques de performance courantes telles que le R-carré et la racine de l’erreur quadratique moyenne. Vous effectuerez une validation croisée à k blocs et appliquerez une régularisation aux modèles de régression afin de réduire le risque de surajustement.

Exercise 1: Introduction à la régression Exercise 2: Création de caractéristiques Exercise 3: Construire un modèle de régression linéaire Exercise 4: Visualisation d’un modèle de régression linéaire Exercise 5: Les bases de la régression linéaire Exercise 6: Ajustement et prédiction de la régression Exercise 7: Performance de la régression Exercise 8: Validation croisée Exercise 9: Validation croisée pour le R-carré Exercise 10: Analyse des métriques de validation croisée Exercise 11: Régression régularisée Exercise 12: Régression régularisée : Crête Exercise 13: Régression Lasso pour l’importance des caractéristiques

Après avoir entraîné des modèles, vous allez maintenant apprendre à les évaluer. Dans ce chapitre, vous découvrirez plusieurs métriques ainsi qu’une technique de visualisation permettant d’analyser les performances des modèles de classification utilisant scikit-learn. Vous apprendrez également à optimiser les modèles de classification et de régression grâce à l’ajustement des hyperparamètres.

Exercise 1: Quelle est la qualité de votre modèle ?Exercise 2: Décider d’une métrique primaire Exercise 3: Évaluation d’un classificateur de prédiction du diabète

Exercice actuel

Exercise 4: Régression logistique et courbe ROC Exercise 5: Construire un modèle de régression logistique Exercise 6: La courbe ROC Exercise 7: Aire sous la courbe ROC (ROC AUC)Exercise 8: Réglage des hyperparamètres Exercise 9: Réglage des hyperparamètres avec GridSearchCV Exercise 10: Réglage des hyperparamètres avec RandomizedSearchCV

Apprenez à imputer les valeurs manquantes, à convertir les données catégorielles en valeurs numériques, à mettre à l’échelle les données, à évaluer simultanément plusieurs modèles d’apprentissage supervisé et à créer des pipelines pour rationaliser votre flux de travail.

Exercise 1: Prétraitement des données Exercise 2: Création de variables nominales Exercise 3: Régression avec caractéristiques catégorielles Exercise 4: Traitement des données manquantes Exercise 5: Suppression des données manquantes Exercise 6: Pipeline pour la prédiction du genre des chansons : I Exercise 7: Pipeline pour la prédiction du genre des chansons : II Exercise 8: Centrage et mise à l’échelle Exercise 9: Centrage et mise à l’échelle pour la régression Exercise 10: Centrage et mise à l’échelle pour la classification Exercise 11: Évaluation de plusieurs modèles Exercise 12: Visualisation de la performance des modèles de régression Exercise 13: Prédiction sur l’ensemble de test Exercise 14: Visualisation des performances des modèles de classification Exercise 15: Pipeline pour prédire la popularité des chansons Exercise 16: Félicitations