Error por underfitting/overfitting
El conjunto de datos de dulces es perfecto para sufrir overfitting. Con solo 85 observaciones, si usas el 20% para el conjunto de prueba, estás perdiendo muchos datos valiosos que podrían usarse para modelar. Imagina que la mayoría de los caramelos de chocolate caen en los datos de entrenamiento y muy pocos en la muestra de validación. Nuestro modelo podría ver solo que el chocolate es un factor clave y no detectar que otros atributos también importan. En este ejercicio, vas a explorar cómo usar demasiadas características (columnas) en un modelo de random forest puede llevar a overfitting.
Una característica indica qué columnas de los datos se usan en un árbol de decisión. El parámetro max_features limita el número de características disponibles.
Este ejercicio forma parte del curso
Validación de modelos en Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Update the rfr model
rfr = RandomForestRegressor(____=25,
____=1111,
____=2)
rfr.fit(X_train, y_train)
# Print the training and testing accuracies
print('The training error is {0:.2f}'.format(
mae(y_train, rfr.predict(X_train))))
print('The testing error is {0:.2f}'.format(
mae(y_test, rfr.predict(X_test))))