Límites de las pruebas de validación cruzada
Puedes especificar números muy grandes tanto para nfold
como para num_boost_round
si quieres realizar una cantidad extrema de validación cruzada. El marco de datos cv_results_big
ya se ha cargado en el espacio de trabajo y se ha creado con el siguiente código:
cv = xgb.cv(params, DTrain, num_boost_round = 600, nfold=10,
shuffle = True)
Aquí, cv()
realizó ¡600 iteraciones de validación cruzada! El parámetro shuffle
indica a la función que baraje los registros cada vez.
Echa un vistazo a estos datos para ver cuáles son los AUC, y comprueba si llegan a 1.0
utilizando la validación cruzada. También debes trazar la puntuación del test AUC para ver la progresión.
El marco de datos cv_results_big
se ha cargado en el espacio de trabajo.
Este ejercicio forma parte del curso
Modelado del riesgo crediticio en Python
Instrucciones de ejercicio
- Imprime las cinco primeras filas del marco de datos de resultados CV.
- Imprime la media del conjunto de pruebas AUC del marco de datos de resultados CV redondeada a dos cifras.
- Traza un gráfico lineal del conjunto de pruebas AUC a lo largo de cada iteración.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Print the first five rows of the CV results data frame
print(____.____())
# Calculate the mean of the test AUC scores
print(np.____(____[____]).round(2))
# Plot the test AUC scores for each iteration
plt.____(____[____])
plt.title('Test AUC Score Over 600 Iterations')
plt.xlabel('Iteration Number')
plt.ylabel('Test AUC Score')
plt.____()