LoslegenKostenlos loslegen

Mitarbeiterdaten aufteilen

Overfitting ist ein häufiges Problem in der Analyse. Das passiert, wenn ein Modell auf dem Datensatz, auf dem es entwickelt wurde, gut funktioniert, aber außerhalb davon nicht verallgemeinert.

Eine Train/Test-Aufteilung stellt die Generalisierbarkeit sicher: Du entwickelst das Modell mit der Trainingsstichprobe und probierst es später an der Teststichprobe aus.

In dieser Übung teilst du sowohl target als auch features in Trainings- und Testmengen mit einem Verhältnis von 75%/25% auf.

Diese Übung ist Teil des Kurses

HR Analytics: Mitarbeiterfluktuation mit Python vorhersagen

Kurs anzeigen

Anleitung zur Übung

  • Importiere train_test_split aus dem Modul sklearn.model_selection
  • Verwende train_test_split(), um deinen Datensatz in Trainings- und Testmengen zu teilen
  • Weise 25% deiner Beobachtungen der Testmenge zu

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the function for splitting dataset into train and test
from sklearn.model_selection import ____

# Use that function to create the splits both for target and for features
# Set the test sample to be 25% of your observations
target_train, target_test, features_train, features_test = ____(target,features,____=0.25,random_state=42)
Code bearbeiten und ausführen