Train/test-split + nauwkeurigheid berekenen
Tijd om te oefenen met het splitsen van je gegevens in train- en testsets met de churn_df-gegevensset!
Er zijn NumPy-arrays voor je aangemaakt met de features als X en de doelvariabele als y.
Deze oefening maakt deel uit van de cursus
Supervised Learning met scikit-learn
Oefeninstructies
- Importeer
train_test_splituitsklearn.model_selection. - Split
Xenyin train- en testsets, steltest_sizein op 20%,random_stateop42, en zorg dat de verhoudingen van de doellabels overeenkomen met die van de oorspronkelijke gegevensset. - Fit het
knn-model op de trainingsgegevens. - Bereken en print de nauwkeurigheid van het model op de testgegevens.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the module
from ____ import ____
X = churn_df.drop("churn", axis=1).values
y = churn_df["churn"].values
# Split into training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, test_size=____, random_state=____, stratify=____)
knn = KNeighborsClassifier(n_neighbors=5)
# Fit the classifier to the training data
____
# Print the accuracy
print(knn.score(____, ____))