Aan de slagGa gratis aan de slag

Fout door under/overfitting

De candy-gegevensset is erg gevoelig voor overfitting. Met maar 85 observaties raak je veel belangrijke data kwijt als je 20% als testgegevensset gebruikt — data die je had kunnen gebruiken voor het model. Stel dat de meeste chocoladesnoepjes in de trainingsdata terechtkomen en maar een paar in de holdout-sample. Dan ziet ons model misschien alleen dat chocolade een cruciale factor is, maar mist het dat ook andere kenmerken belangrijk zijn. In deze oefening ga je verkennen hoe te veel features (kolommen) gebruiken in een random forest-model tot overfitting kan leiden.

Een feature geeft aan welke kolommen van de data worden gebruikt in een beslisboom. De parameter max_features beperkt het aantal beschikbare features.

Deze oefening maakt deel uit van de cursus

Modelvalidatie in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Update the rfr model
rfr = RandomForestRegressor(____=25,
                            ____=1111,
                            ____=2)
rfr.fit(X_train, y_train)

# Print the training and testing accuracies 
print('The training error is {0:.2f}'.format(
  mae(y_train, rfr.predict(X_train))))
print('The testing error is {0:.2f}'.format(
  mae(y_test, rfr.predict(X_test))))
Code bewerken en uitvoeren