Limitando el tamaño de la muestra
Otro método para evitar el sobreajuste es especificar, en el árbol de decisión, el número mínimo de observaciones necesario para crear una hoja (o nodo).
En este ejercicio vas a:
- establecer este límite mínimo en 100
- ajustar el nuevo modelo a los datos de empleados
- examinar los resultados de predicción tanto en los conjuntos de entrenamiento como de prueba
Las variables features_train, target_train, features_test y target_test ya están disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Analítica de RR. HH.: Predicción de rotación de empleados en Python
Instrucciones del ejercicio
- Inicializa
DecisionTreeClassifiery establece el límite mínimo de hojas en 100 observaciones. - Ajusta el modelo de árbol de decisión a los datos de entrenamiento.
- Comprueba la exactitud de las predicciones en los conjuntos de entrenamiento y de prueba.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Initialize the DecisionTreeClassifier while limiting the sample size in leaves to 100
model_sample_100 = DecisionTreeClassifier(____, random_state=42)
# Fit the model
____.fit(features_train,____)
# Print the accuracy of the prediction (in percentage points) for the training set
print(____.score(features_train,target_train)*100)
# Print the accuracy of the prediction (in percentage points) for the test set
print(____.____(features_test,target_test)*100)