Construire un classificateur du diabète

Vous allez utiliser le jeu de données « Pima Indians diabetes » pour prédire si une personne est atteinte de diabète à l’aide d’une régression logistique. Ce jeu comporte 8 variables et une cible. Les données ont été séparées en ensembles d’entraînement et de test et sont préchargées sous les noms X_train, y_train, X_test et y_test.

Une instance de StandardScaler() a été prédéfinie sous le nom scaler et une instance de LogisticRegression() sous le nom lr.

Cet exercice fait partie du cours

<cours>Réduction de dimension en Python</cours>

Voir le cours

Instructions de l’exercice

Ajustez le standardiseur sur les variables d’entraînement et transformez-les en une seule étape.
Entraînez le modèle de régression logistique sur les données d’entraînement standardisées.
Mettez à l’échelle les variables de test.
Prédisez la présence de diabète sur l’ensemble de test standardisé.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Fit the scaler on the training features and transform these in one go
X_train_std = scaler.____(____)

# Fit the logistic regression model on the scaled training data
lr.____(____, ____)

# Scale the test features
X_test_std = scaler.____(____)

# Predict diabetes presence on the scaled test set
y_pred = lr.____(____)

# Prints accuracy metrics and feature coefficients
print(f"{accuracy_score(y_test, y_pred):.1%} accuracy on test set.")
print(dict(zip(X.columns, abs(lr.coef_[0]).round(2))))

Modifier et exécuter le code