ComenzarEmpieza gratis

Error por underfitting/overfitting

El conjunto de datos de dulces es perfecto para sufrir overfitting. Con solo 85 observaciones, si usas el 20% para el conjunto de prueba, estás perdiendo muchos datos valiosos que podrían usarse para modelar. Imagina que la mayoría de los caramelos de chocolate caen en los datos de entrenamiento y muy pocos en la muestra de validación. Nuestro modelo podría ver solo que el chocolate es un factor clave y no detectar que otros atributos también importan. En este ejercicio, vas a explorar cómo usar demasiadas características (columnas) en un modelo de random forest puede llevar a overfitting.

Una característica indica qué columnas de los datos se usan en un árbol de decisión. El parámetro max_features limita el número de características disponibles.

Este ejercicio forma parte del curso

Validación de modelos en Python

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Update the rfr model
rfr = RandomForestRegressor(____=25,
                            ____=1111,
                            ____=2)
rfr.fit(X_train, y_train)

# Print the training and testing accuracies 
print('The training error is {0:.2f}'.format(
  mae(y_train, rfr.predict(X_train))))
print('The testing error is {0:.2f}'.format(
  mae(y_test, rfr.predict(X_test))))
Editar y ejecutar código