LoslegenKostenlos loslegen

Stichprobengröße begrenzen

Eine weitere Methode, um Overfitting zu vermeiden, ist im Decision Tree die minimale Anzahl an Beobachtungen festzulegen, die zum Wachsen eines Blatts (oder Knotens) erforderlich ist.

In dieser Übung wirst du:

  • dieses Minimum auf 100 setzen
  • das neue Modell auf die Mitarbeiterdaten fitten
  • die Vorhersageergebnisse sowohl für Trainings- als auch Testdaten untersuchen

Die Variablen features_train, target_train, features_test und target_test sind bereits in deinem Workspace verfügbar.

Diese Übung ist Teil des Kurses

HR Analytics: Mitarbeiterfluktuation mit Python vorhersagen

Kurs anzeigen

Anleitung zur Übung

  • Initialisiere den DecisionTreeClassifier und setze das minimale Blatt-Limit auf 100 Beobachtungen
  • Fitte das Decision-Tree-Modell auf die Trainingsdaten.
  • Prüfe die Genauigkeit der Vorhersagen sowohl für die Trainings- als auch für die Testdaten.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Initialize the DecisionTreeClassifier while limiting the sample size in leaves to 100
model_sample_100 = DecisionTreeClassifier(____, random_state=42)

# Fit the model
____.fit(features_train,____)

# Print the accuracy of the prediction (in percentage points) for the training set
print(____.score(features_train,target_train)*100)

# Print the accuracy of the prediction (in percentage points) for the test set
print(____.____(features_test,target_test)*100)
Code bearbeiten und ausführen