Limitando el tamaño de la muestra

Otro método para evitar el sobreajuste es especificar, en el árbol de decisión, el número mínimo de observaciones necesario para crear una hoja (o nodo).

En este ejercicio vas a:

establecer este límite mínimo en 100
ajustar el nuevo modelo a los datos de empleados
examinar los resultados de predicción tanto en los conjuntos de entrenamiento como de prueba

Las variables features_train, target_train, features_test y target_test ya están disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Analítica de RR. HH.: Predicción de rotación de empleados en Python

Ver curso

Instrucciones del ejercicio

Inicializa DecisionTreeClassifier y establece el límite mínimo de hojas en 100 observaciones.
Ajusta el modelo de árbol de decisión a los datos de entrenamiento.
Comprueba la exactitud de las predicciones en los conjuntos de entrenamiento y de prueba.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Initialize the DecisionTreeClassifier while limiting the sample size in leaves to 100
model_sample_100 = DecisionTreeClassifier(____, random_state=42)

# Fit the model
____.fit(features_train,____)

# Print the accuracy of the prediction (in percentage points) for the training set
print(____.score(features_train,target_train)*100)

# Print the accuracy of the prediction (in percentage points) for the test set
print(____.____(features_test,target_test)*100)

Editar y ejecutar código