Een classifier voor diabetes bouwen
Je gaat de Pima Indians-diabetesgegevensset gebruiken om met logistieke regressie te voorspellen of iemand diabetes heeft. Deze gegevensset bevat 8 features en één target. De data is opgesplitst in een trainings- en testset en is al voor je ingeladen als X_train, y_train, X_test en y_test.
Een StandardScaler()-instance is vooraf gedefinieerd als scaler en een LogisticRegression()-instance als lr.
Deze oefening maakt deel uit van de cursus
Dimensionality Reduction in Python
Oefeninstructies
- Fit de scaler op de trainingsfeatures en transformeer deze features in één keer.
- Fit het logistieke regressiemodel op de geschaalde trainingsdata.
- Schaal de testfeatures.
- Voorspel de aanwezigheid van diabetes op de geschaalde testset.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Fit the scaler on the training features and transform these in one go
X_train_std = scaler.____(____)
# Fit the logistic regression model on the scaled training data
lr.____(____, ____)
# Scale the test features
X_test_std = scaler.____(____)
# Predict diabetes presence on the scaled test set
y_pred = lr.____(____)
# Prints accuracy metrics and feature coefficients
print(f"{accuracy_score(y_test, y_pred):.1%} accuracy on test set.")
print(dict(zip(X.columns, abs(lr.coef_[0]).round(2))))