Comparar el rendimiento del modelo
Representar los datos te ayuda a intuir dónde el modelo funciona bien y dónde no. A veces viene bien tener una estadística que te dé una puntuación del modelo. Así puedes cuantificar lo bueno que es y compararlo con muchos otros modelos. Una estadística habitual es el error cuadrático medio de la raíz (a menudo abreviado como "RMSE"), que simplemente eleva al cuadrado los residuos, calcula la media y luego toma la raíz cuadrada. Un RMSE pequeño para un conjunto de datos dado implica una mejor predicción. (Por defecto, no puedes comparar entre conjuntos de datos distintos, solo entre modelos diferentes sobre el mismo conjunto de datos. A veces es posible normalizar los conjuntos de datos para poder compararlos entre sí.)
Aquí vas a comparar los modelos de gradient boosted trees y random forest.
Este ejercicio forma parte del curso
Introducción a Spark con sparklyr en R
Instrucciones del ejercicio
both_responses, que contiene el año predicho y el real de la pista para ambos modelos, ya se ha definido como un tibble local.
- Crea un conjunto de datos con la suma de cuadrados de los residuos.
- Añade una columna
residual, igual a la respuesta predicha menos la respuesta real. - Agrupa los datos por
model. - Calcula una estadística de resumen,
rmse, igual a la raíz cuadrada de la media de losresiduals al cuadrado.
- Añade una columna
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# both_responses has been pre-defined
both_responses
# Create a residual sum of squares dataset
___