EmpezarEmpieza gratis

Error por underfitting/overfitting

El conjunto de datos de dulces es perfecto para sufrir overfitting. Con solo 85 observaciones, si usas el 20% para el conjunto de prueba, estás perdiendo muchos datos valiosos que podrían usarse para modelar. Imagina que la mayoría de los caramelos de chocolate caen en los datos de entrenamiento y muy pocos en la muestra de validación. Nuestro modelo podría ver solo que el chocolate es un factor clave y no detectar que otros atributos también importan. En este ejercicio, vas a explorar cómo usar demasiadas características (columnas) en un modelo de random forest puede llevar a overfitting.

Una característica indica qué columnas de los datos se usan en un árbol de decisión. El parámetro max_features limita el número de características disponibles.

Este ejercicio forma parte del curso

Validación de modelos en Python

Ver curso

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Update the rfr model
rfr = RandomForestRegressor(____=25,
                            ____=1111,
                            ____=2)
rfr.fit(X_train, y_train)

# Print the training and testing accuracies 
print('The training error is {0:.2f}'.format(
  mae(y_train, rfr.predict(X_train))))
print('The testing error is {0:.2f}'.format(
  mae(y_test, rfr.predict(X_test))))
Editar y ejecutar código