Límites de las pruebas de validación cruzada
Puedes especificar números muy grandes tanto para nfold como para num_boost_round si quieres realizar una cantidad extrema de validación cruzada. El marco de datos cv_results_big ya se ha cargado en el espacio de trabajo y se ha creado con el siguiente código:
cv = xgb.cv(params, DTrain, num_boost_round = 600, nfold=10,
shuffle = True)
Aquí, cv() realizó ¡600 iteraciones de validación cruzada! El parámetro shuffle indica a la función que baraje los registros cada vez.
Echa un vistazo a estos datos para ver cuáles son los AUC, y comprueba si llegan a 1.0 utilizando la validación cruzada. También debes trazar la puntuación del test AUC para ver la progresión.
El marco de datos cv_results_big se ha cargado en el espacio de trabajo.
Este ejercicio forma parte del curso
Modelado del riesgo crediticio en Python
Instrucciones del ejercicio
- Imprime las cinco primeras filas del marco de datos de resultados CV.
- Imprime la media del conjunto de pruebas AUC del marco de datos de resultados CV redondeada a dos cifras.
- Traza un gráfico lineal del conjunto de pruebas AUC a lo largo de cada iteración.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Print the first five rows of the CV results data frame
print(____.____())
# Calculate the mean of the test AUC scores
print(np.____(____[____]).round(2))
# Plot the test AUC scores for each iteration
plt.____(____[____])
plt.title('Test AUC Score Over 600 Iterations')
plt.xlabel('Iteration Number')
plt.ylabel('Test AUC Score')
plt.____()