Crea las particiones

Dividir los datos una sola vez en conjuntos de entrenamiento y prueba tiene inseguridades estadísticas: existe una pequeña posibilidad de que tu conjunto de prueba contenga solo habas con alta valoración, mientras que todas las de baja valoración queden en el conjunto de entrenamiento. También implica que solo podrás medir el rendimiento de tu modelo una vez.

La validación cruzada te da una estimación más robusta de tu rendimiento fuera de muestra sin esos escollos estadísticos: evalúa tu modelo de manera más profunda.

En este ejercicio, crearás particiones (folds) de tus datos de entrenamiento chocolate_train, que ya están precargados.

Este ejercicio forma parte del curso

Machine Learning con modelos basados en árboles en R

Instrucciones del ejercicio

Establece una semilla de 20 para asegurar la reproducibilidad.
Crea 10 particiones de chocolate_train y guarda el resultado en chocolate_folds.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Set seed for reproducibility
___

# Build 10 folds
chocolate_folds <- ___(___, v = ___)

print(chocolate_folds)

Editar y ejecutar código

Este ejercicio forma parte del curso

Machine Learning con modelos basados en árboles en R

PrincipianteNivel de habilidad

4.9+

Comienza el curso gratis

¿Listo para construir un flujo real de Machine Learning? Completa ejercicios paso a paso para aprender a crear árboles de decisión, dividir tus datos y predecir qué pacientes tienen más probabilidad de sufrir diabetes. Por último, crearás métricas de rendimiento para evaluar tus modelos y juzgar tus predicciones.

Exercise 1: ¡Bienvenido al curso!Exercise 2: ¿Por qué métodos basados en árboles?Exercise 3: Especifica ese árbol Exercise 4: Entrena ese modelo Exercise 5: Cómo hacer crecer tu árbol Exercise 6: División train/test Exercise 7: Evitar desequilibrios de clases Exercise 8: De cero a experto Exercise 9: Predecir y evaluar Exercise 10: Haz predicciones Exercise 11: Descifra la matriz Exercise 12: ¿Estás prediciendo correctamente?

¿Te apetece algo dulce? Usa un conjunto de datos de valoraciones de chocolate para construir árboles de regresión y evaluar su rendimiento con medidas de error adecuadas. Superarás la incertidumbre estadística de una única división train/test aplicando técnicas “dulces” como la validación cruzada y luego profundizarás aún más dominando el equilibrio sesgo-varianza.

Exercise 1: Resultados continuos Exercise 2: Entrena un árbol de regresión Exercise 3: Predecir nuevos valores Exercise 4: Inspeccionar la salida del modelo Exercise 5: Métricas de rendimiento para árboles de regresión Exercise 6: Rendimiento in-sample Exercise 7: Rendimiento fuera de muestra Exercise 8: Errores más grandes, mayor penalización Exercise 9: Validación cruzada Exercise 10: Crea las particiones

Ejercicio actual

Exercise 11: Ajusta los pliegues Exercise 12: Evalúa los pliegues Exercise 13: Compensación sesgo-varianza Exercise 14: Llama a las cosas por su nombre Exercise 15: Ajusta la complejidad del modelo Exercise 16: Rendimiento in-sample y out-of-sample

Es hora de ponerse serios ajustando tus hiperparámetros e interpretando curvas ROC (receiver operating characteristic). En este capítulo, aprovecharás la sabiduría del conjunto con modelos como bagging o random forests y construirás ensembles que pronostiquen qué clientes de tarjeta de crédito tienen más probabilidad de darse de baja.

Exercise 1: Ajuste de hiperparámetros Exercise 2: Genera una rejilla de ajuste Exercise 3: Ajusta a lo largo de la cuadrícula Exercise 4: Elige al ganador Exercise 5: Más métricas del modelo Exercise 6: Calcular la especificidad Exercise 7: Dibuja la curva ROC Exercise 8: Área bajo la curva ROC Exercise 9: Árboles con bagging Exercise 10: Crear árboles con bagging Exercise 11: ROC y AUC dentro de la muestra Exercise 12: Comprueba si hay sobreajuste Exercise 13: Random forest Exercise 14: Árboles con bagging vs. random forest Exercise 15: Importancia de variables

¿Preparado para la alta gama de los modelos basados en árboles? Aplica gradient boosting para crear conjuntos potentes que superen todo lo que has visto o construido. Aprende a afinarlos y a comparar distintos modelos para elegir un ganador para producción.

Exercise 1: Introducción al boosting Exercise 2: Bagging vs. boosting Exercise 3: Especifica un conjunto potenciado (boosted)Exercise 4: Gradient boosting Exercise 5: Entrena un conjunto potenciado Exercise 6: Evalúa el conjunto Exercise 7: Comparar con un solo clasificador Exercise 8: Optimiza el conjunto potenciado Exercise 9: Preparación del ajuste Exercise 10: La afinación propiamente dicha Exercise 11: Finaliza el modelo Exercise 12: Comparación de modelos Exercise 13: Comparar AUC Exercise 14: Traza curvas ROC Exercise 15: Cierre