Mitarbeiterdaten aufteilen

Overfitting ist ein häufiges Problem in der Analyse. Das passiert, wenn ein Modell auf dem Datensatz, auf dem es entwickelt wurde, gut funktioniert, aber außerhalb davon nicht verallgemeinert.

Eine Train/Test-Aufteilung stellt die Generalisierbarkeit sicher: Du entwickelst das Modell mit der Trainingsstichprobe und probierst es später an der Teststichprobe aus.

In dieser Übung teilst du sowohl target als auch features in Trainings- und Testmengen mit einem Verhältnis von 75%/25% auf.

Diese Übung ist Teil des Kurses

<Kurs>HR Analytics: Mitarbeiterfluktuation mit Python vorhersagen</Kurs>

Kurs ansehen

Übungsanweisungen

Importiere train_test_split aus dem Modul sklearn.model_selection
Verwende train_test_split(), um deinen Datensatz in Trainings- und Testmengen zu teilen
Weise 25% deiner Beobachtungen der Testmenge zu

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the function for splitting dataset into train and test
from sklearn.model_selection import ____

# Use that function to create the splits both for target and for features
# Set the test sample to be 25% of your observations
target_train, target_test, features_train, features_test = ____(target,features,____=0.25,random_state=42)

Code bearbeiten und ausführen