Zerlegung in Trainings-/Testdaten und Berechnung der Korrektklassifikationsrate
Nun kannst du anhand des churn_df-Datensatzes selbst üben, wie Daten in Trainings- und Testmengen zerlegt werden.
Es wurden bereits NumPy-Arrays für die Merkmale X und die Zielvariable y für dich erstellt.
Diese Übung ist Teil des Kurses
Überwachtes Lernen mit scikit-learn
Anleitung zur Übung
- Importiere
train_test_splitaussklearn.model_selection. - Zerlege
Xundyin eine Trainings- und eine Testmenge. Setze dabeitest_sizeauf 20 % undrandom_stateauf42und stelle sicher, dass die Verteilung der Ziellabels dem Originaldatensatz entspricht. - Passe das Modell
knnan die Trainingsdaten an. - Berechne die Korrektklassifikationsrate des Modells für die Testdaten und gib sie aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the module
from ____ import ____
X = churn_df.drop("churn", axis=1).values
y = churn_df["churn"].values
# Split into training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, test_size=____, random_state=____, stratify=____)
knn = KNeighborsClassifier(n_neighbors=5)
# Fit the classifier to the training data
____
# Print the accuracy
print(knn.score(____, ____))