Zerlegung in Trainings-/Testdaten und Berechnung der Korrektklassifikationsrate
Nun kannst du anhand des churn_df
-Datensatzes selbst üben, wie Daten in Trainings- und Testmengen zerlegt werden.
Es wurden bereits NumPy-Arrays für die Merkmale X
und die Zielvariable y
für dich erstellt.
Diese Übung ist Teil des Kurses
Überwachtes Lernen mit scikit-learn
Anleitung zur Übung
- Importiere
train_test_split
aussklearn.model_selection
. - Zerlege
X
undy
in eine Trainings- und eine Testmenge. Setze dabeitest_size
auf 20 % undrandom_state
auf42
und stelle sicher, dass die Verteilung der Ziellabels dem Originaldatensatz entspricht. - Passe das Modell
knn
an die Trainingsdaten an. - Berechne die Korrektklassifikationsrate des Modells für die Testdaten und gib sie aus.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import the module
from ____ import ____
X = churn_df.drop("churn", axis=1).values
y = churn_df["churn"].values
# Split into training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, test_size=____, random_state=____, stratify=____)
knn = KNeighborsClassifier(n_neighbors=5)
# Fit the classifier to the training data
____
# Print the accuracy
print(knn.score(____, ____))