Stichprobengröße begrenzen
Eine weitere Methode, um Overfitting zu vermeiden, ist im Decision Tree die minimale Anzahl an Beobachtungen festzulegen, die zum Wachsen eines Blatts (oder Knotens) erforderlich ist.
In dieser Übung wirst du:
- dieses Minimum auf 100 setzen
- das neue Modell auf die Mitarbeiterdaten fitten
- die Vorhersageergebnisse sowohl für Trainings- als auch Testdaten untersuchen
Die Variablen features_train, target_train, features_test und target_test sind bereits in deinem Workspace verfügbar.
Diese Übung ist Teil des Kurses
<Kurs>HR Analytics: Mitarbeiterfluktuation mit Python vorhersagen</Kurs>Übungsanweisungen
- Initialisiere den
DecisionTreeClassifierund setze das minimale Blatt-Limit auf 100 Beobachtungen - Fitte das Decision-Tree-Modell auf die Trainingsdaten.
- Prüfe die Genauigkeit der Vorhersagen sowohl für die Trainings- als auch für die Testdaten.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Initialize the DecisionTreeClassifier while limiting the sample size in leaves to 100
model_sample_100 = DecisionTreeClassifier(____, random_state=42)
# Fit the model
____.fit(features_train,____)
# Print the accuracy of the prediction (in percentage points) for the training set
print(____.score(features_train,target_train)*100)
# Print the accuracy of the prediction (in percentage points) for the test set
print(____.____(features_test,target_test)*100)