Aan de slagGa gratis aan de slag

Een classifier voor diabetesvoorspelling beoordelen

In dit hoofdstuk werk je met de gegevensset diabetes_df die eerder is geïntroduceerd.

Het doel is te voorspellen of iemand waarschijnlijk diabetes heeft op basis van de kenmerken body mass index (BMI) en leeftijd (in jaren). Het is dus een binaire classificatie. Een doelwaarde van 0 betekent dat de persoon géén diabetes heeft, terwijl een waarde van 1 betekent dat de persoon wél diabetes heeft.

diabetes_df is alvast voor je geladen als een pandas DataFrame en opgesplitst in X_train, X_test, y_train en y_test. Daarnaast is een KNeighborsClassifier() geïnstantieerd en toegewezen aan knn.

Je gaat het model fitten, voorspellingen doen op de testset en vervolgens een verwarringsmatrix en een classificatierapport genereren.

Deze oefening maakt deel uit van de cursus

Supervised Learning met scikit-learn

Cursus bekijken

Oefeninstructies

  • Importeer confusion_matrix en classification_report.
  • Fit het model op de trainingsdata.
  • Voorspel de labels van de testset en sla de resultaten op als y_pred.
  • Bereken en print de verwarringsmatrix en het classificatierapport voor de testlabels versus de voorspelde labels.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import confusion matrix
____

knn = KNeighborsClassifier(n_neighbors=6)

# Fit the model to the training data
____

# Predict the labels of the test data: y_pred
y_pred = ____

# Generate the confusion matrix and classification report
print(____(____, ____))
print(____(____, ____))
Code bewerken en uitvoeren