Fehler durch Under-/Overfitting
Der Candy-Datensatz ist ein Paradebeispiel für Overfitting. Mit nur 85 Beobachtungen verlierst du bei 20 % Testdatensatz viele wichtige Daten, die fürs Modellieren genutzt werden könnten. Stell dir vor, die meisten Schoko-Süßigkeiten landen im Trainingsdatensatz und nur sehr wenige im Holdout-Sample. Unser Modell könnte dann nur erkennen, dass Schokolade ein entscheidender Faktor ist, und übersehen, dass auch andere Merkmale wichtig sind. In dieser Übung untersuchst du, wie die Verwendung zu vieler Features (Spalten) in einem Random-Forest-Modell zu Overfitting führen kann.
Ein Feature gibt an, welche Spalten der Daten in einem Entscheidungsbaum verwendet werden. Der Parameter max_features begrenzt die Anzahl der verfügbaren Features.
Diese Übung ist Teil des Kurses
Modellvalidierung in Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Update the rfr model
rfr = RandomForestRegressor(____=25,
____=1111,
____=2)
rfr.fit(X_train, y_train)
# Print the training and testing accuracies
print('The training error is {0:.2f}'.format(
mae(y_train, rfr.predict(X_train))))
print('The testing error is {0:.2f}'.format(
mae(y_test, rfr.predict(X_test))))