Construire un classificateur du diabète
Vous allez utiliser le jeu de données « Pima Indians diabetes » pour prédire si une personne est atteinte de diabète à l’aide d’une régression logistique. Ce jeu comporte 8 variables et une cible. Les données ont été séparées en ensembles d’entraînement et de test et sont préchargées sous les noms X_train, y_train, X_test et y_test.
Une instance de StandardScaler() a été prédéfinie sous le nom scaler et une instance de LogisticRegression() sous le nom lr.
Cet exercice fait partie du cours
Réduction de dimension en Python
Instructions
- Ajustez le standardiseur sur les variables d’entraînement et transformez-les en une seule étape.
- Entraînez le modèle de régression logistique sur les données d’entraînement standardisées.
- Mettez à l’échelle les variables de test.
- Prédisez la présence de diabète sur l’ensemble de test standardisé.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Fit the scaler on the training features and transform these in one go
X_train_std = scaler.____(____)
# Fit the logistic regression model on the scaled training data
lr.____(____, ____)
# Scale the test features
X_test_std = scaler.____(____)
# Predict diabetes presence on the scaled test set
y_pred = lr.____(____)
# Prints accuracy metrics and feature coefficients
print(f"{accuracy_score(y_test, y_pred):.1%} accuracy on test set.")
print(dict(zip(X.columns, abs(lr.coef_[0]).round(2))))