Mitarbeiterdaten aufteilen
Overfitting ist ein häufiges Problem in der Analyse. Das passiert, wenn ein Modell auf dem Datensatz, auf dem es entwickelt wurde, gut funktioniert, aber außerhalb davon nicht verallgemeinert.
Eine Train/Test-Aufteilung stellt die Generalisierbarkeit sicher: Du entwickelst das Modell mit der Trainingsstichprobe und probierst es später an der Teststichprobe aus.
In dieser Übung teilst du sowohl target als auch features in Trainings- und Testmengen mit einem Verhältnis von 75%/25% auf.
Diese Übung ist Teil des Kurses
HR Analytics: Mitarbeiterfluktuation mit Python vorhersagen
Anleitung zur Übung
- Importiere
train_test_splitaus dem Modulsklearn.model_selection - Verwende
train_test_split(), um deinen Datensatz in Trainings- und Testmengen zu teilen - Weise 25% deiner Beobachtungen der Testmenge zu
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the function for splitting dataset into train and test
from sklearn.model_selection import ____
# Use that function to create the splits both for target and for features
# Set the test sample to be 25% of your observations
target_train, target_test, features_train, features_test = ____(target,features,____=0.25,random_state=42)