Errores más grandes, mayor penalización

Todos los errores son errores, pero no todos son igual de graves. A veces, los errores de predicción grandes son desproporcionadamente más perjudiciales que los pequeños.

Errores más grandes, mayor penalización: esa es una de las características del error cuadrático medio o RMSE. Eleva al cuadrado los errores grandes, lo que castiga a estos valores atípicos con más severidad que a los errores pequeños.

El RMSE puede calcularse con la siguiente fórmula, donde el squared_diff \(i\)-ésimo es el cuadrado del error \(i\)-ésimo.

$$RMSE = \sqrt{\frac{1}{n} \cdot \sum_{i=1} ^n i\text{th squared_diff}}$$

En este ejercicio, vas a calcular el RMSE de tus predicciones.

En tu espacio de trabajo tienes disponible el resultado del ejercicio anterior, test_enriched, los datos de prueba con una nueva columna .pred, que contiene las predicciones fuera de muestra del modelo.

Este ejercicio forma parte del curso

Machine Learning con modelos basados en árboles en R

Instrucciones del ejercicio

Calcula las diferencias componente a componente entre las predicciones y las calificaciones finales, elévalas al cuadrado y guárdalas como squared_diffs.
Usa la fórmula anterior para calcular el RMSE y guárdalo como rmse_manual.
Usa la función rmse() para calcular el error y guárdalo como rmse_auto.
Imprime rmse_manual y rmse_auto para comprobar que son iguales.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Calculate the squared differences
squared_diffs <- (___ - ___)^___

# Compute the RMSE using the formula
rmse_manual <- ___(1 / ___ * ___)

# Compute the RMSE using a function
rmse_auto <- ___(___,
                 ___,
                 ___)

# Print both errors
___
___

Editar y ejecutar código

Este ejercicio forma parte del curso

Machine Learning con modelos basados en árboles en R

PrincipianteNivel de habilidad

4.9+

Comienza el curso gratis

¿Listo para construir un flujo real de Machine Learning? Completa ejercicios paso a paso para aprender a crear árboles de decisión, dividir tus datos y predecir qué pacientes tienen más probabilidad de sufrir diabetes. Por último, crearás métricas de rendimiento para evaluar tus modelos y juzgar tus predicciones.

Exercise 1: ¡Bienvenido al curso!Exercise 2: ¿Por qué métodos basados en árboles?Exercise 3: Especifica ese árbol Exercise 4: Entrena ese modelo Exercise 5: Cómo hacer crecer tu árbol Exercise 6: División train/test Exercise 7: Evitar desequilibrios de clases Exercise 8: De cero a experto Exercise 9: Predecir y evaluar Exercise 10: Haz predicciones Exercise 11: Descifra la matriz Exercise 12: ¿Estás prediciendo correctamente?

¿Te apetece algo dulce? Usa un conjunto de datos de valoraciones de chocolate para construir árboles de regresión y evaluar su rendimiento con medidas de error adecuadas. Superarás la incertidumbre estadística de una única división train/test aplicando técnicas “dulces” como la validación cruzada y luego profundizarás aún más dominando el equilibrio sesgo-varianza.

Exercise 1: Resultados continuos Exercise 2: Entrena un árbol de regresión Exercise 3: Predecir nuevos valores Exercise 4: Inspeccionar la salida del modelo Exercise 5: Métricas de rendimiento para árboles de regresión Exercise 6: Rendimiento in-sample Exercise 7: Rendimiento fuera de muestra Exercise 8: Errores más grandes, mayor penalización

Ejercicio actual

Exercise 9: Validación cruzada Exercise 10: Crea las particiones Exercise 11: Ajusta los pliegues Exercise 12: Evalúa los pliegues Exercise 13: Compensación sesgo-varianza Exercise 14: Llama a las cosas por su nombre Exercise 15: Ajusta la complejidad del modelo Exercise 16: Rendimiento in-sample y out-of-sample

Es hora de ponerse serios ajustando tus hiperparámetros e interpretando curvas ROC (receiver operating characteristic). En este capítulo, aprovecharás la sabiduría del conjunto con modelos como bagging o random forests y construirás ensembles que pronostiquen qué clientes de tarjeta de crédito tienen más probabilidad de darse de baja.

Exercise 1: Ajuste de hiperparámetros Exercise 2: Genera una rejilla de ajuste Exercise 3: Ajusta a lo largo de la cuadrícula Exercise 4: Elige al ganador Exercise 5: Más métricas del modelo Exercise 6: Calcular la especificidad Exercise 7: Dibuja la curva ROC Exercise 8: Área bajo la curva ROC Exercise 9: Árboles con bagging Exercise 10: Crear árboles con bagging Exercise 11: ROC y AUC dentro de la muestra Exercise 12: Comprueba si hay sobreajuste Exercise 13: Random forest Exercise 14: Árboles con bagging vs. random forest Exercise 15: Importancia de variables

¿Preparado para la alta gama de los modelos basados en árboles? Aplica gradient boosting para crear conjuntos potentes que superen todo lo que has visto o construido. Aprende a afinarlos y a comparar distintos modelos para elegir un ganador para producción.

Exercise 1: Introducción al boosting Exercise 2: Bagging vs. boosting Exercise 3: Especifica un conjunto potenciado (boosted)Exercise 4: Gradient boosting Exercise 5: Entrena un conjunto potenciado Exercise 6: Evalúa el conjunto Exercise 7: Comparar con un solo clasificador Exercise 8: Optimiza el conjunto potenciado Exercise 9: Preparación del ajuste Exercise 10: La afinación propiamente dicha Exercise 11: Finaliza el modelo Exercise 12: Comparación de modelos Exercise 13: Comparar AUC Exercise 14: Traza curvas ROC Exercise 15: Cierre