KNN op geschaalde data
De nauwkeurigheid op de ongeschaalde wine-gegevensset was prima, maar laten we kijken wat je kunt bereiken met standaardisatie. Ook nu zijn het knn-model en de X- en y-data en -labels al voor je klaargezet.
Deze oefening maakt deel uit van de cursus
Preprocessing voor Machine Learning in Python
Oefeninstructies
- Maak de methode
StandardScaler(), opgeslagen in een variabele met de naamscaler. - Schaal de trainings- en testfeatures, en let erop dat je geen data leakage introduceert.
- Fit het
knn-model op de geschaalde trainingsdata. - Beoordeel de prestatie van het model door de nauwkeurigheid op de testset te berekenen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)
# Instantiate a StandardScaler
scaler = ____
# Scale the training and test features
X_train_scaled = ____.____(____)
X_test_scaled = ____.____(____)
# Fit the k-nearest neighbors model to the training data
____.____(____, ____)
# Score the model on the test data
print(____.____(____, ____))