Aan de slagGa gratis aan de slag

Een classifier voor diabetes bouwen

Je gaat de Pima Indians-diabetesgegevensset gebruiken om met logistieke regressie te voorspellen of iemand diabetes heeft. Deze gegevensset bevat 8 features en één target. De data is opgesplitst in een trainings- en testset en is al voor je ingeladen als X_train, y_train, X_test en y_test.

Een StandardScaler()-instance is vooraf gedefinieerd als scaler en een LogisticRegression()-instance als lr.

Deze oefening maakt deel uit van de cursus

Dimensionality Reduction in Python

Cursus bekijken

Oefeninstructies

  • Fit de scaler op de trainingsfeatures en transformeer deze features in één keer.
  • Fit het logistieke regressiemodel op de geschaalde trainingsdata.
  • Schaal de testfeatures.
  • Voorspel de aanwezigheid van diabetes op de geschaalde testset.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Fit the scaler on the training features and transform these in one go
X_train_std = scaler.____(____)

# Fit the logistic regression model on the scaled training data
lr.____(____, ____)

# Scale the test features
X_test_std = scaler.____(____)

# Predict diabetes presence on the scaled test set
y_pred = lr.____(____)

# Prints accuracy metrics and feature coefficients
print(f"{accuracy_score(y_test, y_pred):.1%} accuracy on test set.")
print(dict(zip(X.columns, abs(lr.coef_[0]).round(2))))
Code bewerken en uitvoeren