Rendimiento in-sample y out-of-sample

¿Un modelo más sofisticado siempre rinde mejor? Como comentamos en el vídeo, eso solo es parte de la verdad.

Los modelos sobreajustados captan a la perfección la estructura de su conjunto de entrenamiento, pero no generalizan a datos nuevos. ¡Vaya faena! Al final, el objetivo principal de un modelo predictivo es funcionar bien con datos que no ha visto, ¿verdad? ¡Investiga!

Ya tienes precargado el último modelo del ejercicio anterior, complex_model, y tus datos de entrenamiento y prueba (chocolate_train y chocolate_test).

Este ejercicio forma parte del curso

Machine Learning con modelos basados en árboles en R

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Predict on and combine with training data and calculate the error
predict(___, new_data = ___) %>%
	___ %>% 
	mae(___,
        ___)

Editar y ejecutar código

Este ejercicio forma parte del curso

Machine Learning con modelos basados en árboles en R

PrincipianteNivel de habilidad

4.9+

Comienza el curso gratis

¿Listo para construir un flujo real de Machine Learning? Completa ejercicios paso a paso para aprender a crear árboles de decisión, dividir tus datos y predecir qué pacientes tienen más probabilidad de sufrir diabetes. Por último, crearás métricas de rendimiento para evaluar tus modelos y juzgar tus predicciones.

Exercise 1: ¡Bienvenido al curso!Exercise 2: ¿Por qué métodos basados en árboles?Exercise 3: Especifica ese árbol Exercise 4: Entrena ese modelo Exercise 5: Cómo hacer crecer tu árbol Exercise 6: División train/test Exercise 7: Evitar desequilibrios de clases Exercise 8: De cero a experto Exercise 9: Predecir y evaluar Exercise 10: Haz predicciones Exercise 11: Descifra la matriz Exercise 12: ¿Estás prediciendo correctamente?

¿Te apetece algo dulce? Usa un conjunto de datos de valoraciones de chocolate para construir árboles de regresión y evaluar su rendimiento con medidas de error adecuadas. Superarás la incertidumbre estadística de una única división train/test aplicando técnicas “dulces” como la validación cruzada y luego profundizarás aún más dominando el equilibrio sesgo-varianza.

Exercise 1: Resultados continuos Exercise 2: Entrena un árbol de regresión Exercise 3: Predecir nuevos valores Exercise 4: Inspeccionar la salida del modelo Exercise 5: Métricas de rendimiento para árboles de regresión Exercise 6: Rendimiento in-sample Exercise 7: Rendimiento fuera de muestra Exercise 8: Errores más grandes, mayor penalización Exercise 9: Validación cruzada Exercise 10: Crea las particiones Exercise 11: Ajusta los pliegues Exercise 12: Evalúa los pliegues Exercise 13: Compensación sesgo-varianza Exercise 14: Llama a las cosas por su nombre Exercise 15: Ajusta la complejidad del modelo Exercise 16: Rendimiento in-sample y out-of-sample

Ejercicio actual

Es hora de ponerse serios ajustando tus hiperparámetros e interpretando curvas ROC (receiver operating characteristic). En este capítulo, aprovecharás la sabiduría del conjunto con modelos como bagging o random forests y construirás ensembles que pronostiquen qué clientes de tarjeta de crédito tienen más probabilidad de darse de baja.

Exercise 1: Ajuste de hiperparámetros Exercise 2: Genera una rejilla de ajuste Exercise 3: Ajusta a lo largo de la cuadrícula Exercise 4: Elige al ganador Exercise 5: Más métricas del modelo Exercise 6: Calcular la especificidad Exercise 7: Dibuja la curva ROC Exercise 8: Área bajo la curva ROC Exercise 9: Árboles con bagging Exercise 10: Crear árboles con bagging Exercise 11: ROC y AUC dentro de la muestra Exercise 12: Comprueba si hay sobreajuste Exercise 13: Random forest Exercise 14: Árboles con bagging vs. random forest Exercise 15: Importancia de variables

¿Preparado para la alta gama de los modelos basados en árboles? Aplica gradient boosting para crear conjuntos potentes que superen todo lo que has visto o construido. Aprende a afinarlos y a comparar distintos modelos para elegir un ganador para producción.

Exercise 1: Introducción al boosting Exercise 2: Bagging vs. boosting Exercise 3: Especifica un conjunto potenciado (boosted)Exercise 4: Gradient boosting Exercise 5: Entrena un conjunto potenciado Exercise 6: Evalúa el conjunto Exercise 7: Comparar con un solo clasificador Exercise 8: Optimiza el conjunto potenciado Exercise 9: Preparación del ajuste Exercise 10: La afinación propiamente dicha Exercise 11: Finaliza el modelo Exercise 12: Comparación de modelos Exercise 13: Comparar AUC Exercise 14: Traza curvas ROC Exercise 15: Cierre