Een classifier voor diabetes bouwen

Je gaat de Pima Indians-diabetesgegevensset gebruiken om met logistieke regressie te voorspellen of iemand diabetes heeft. Deze gegevensset bevat 8 features en één target. De data is opgesplitst in een trainings- en testset en is al voor je ingeladen als X_train, y_train, X_test en y_test.

Een StandardScaler()-instance is vooraf gedefinieerd als scaler en een LogisticRegression()-instance als lr.

Deze oefening maakt deel uit van de cursus

Dimensionality Reduction in Python

Bekijk cursus

Oefeninstructies

Fit de scaler op de trainingsfeatures en transformeer deze features in één keer.
Fit het logistieke regressiemodel op de geschaalde trainingsdata.
Schaal de testfeatures.
Voorspel de aanwezigheid van diabetes op de geschaalde testset.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Fit the scaler on the training features and transform these in one go
X_train_std = scaler.____(____)

# Fit the logistic regression model on the scaled training data
lr.____(____, ____)

# Scale the test features
X_test_std = scaler.____(____)

# Predict diabetes presence on the scaled test set
y_pred = lr.____(____)

# Prints accuracy metrics and feature coefficients
print(f"{accuracy_score(y_test, y_pred):.1%} accuracy on test set.")
print(dict(zip(X.columns, abs(lr.coef_[0]).round(2))))

Code bewerken en uitvoeren