Evitar desequilibrios de clases

Algunos datos presentan resultados muy desequilibrados, como en un conjunto de datos sobre una enfermedad poco frecuente. Si divides al azar, podrías terminar con una partición muy desafortunada. Imagina que todas las observaciones raras caen en test y ninguna en training. ¡Eso arruinaría todo tu proceso de entrenamiento!

Por suerte, la función initial_split() ofrece una solución. En este ejercicio, vas a observar y corregir estos llamados desequilibrios de clases.

Ya tienes código preparado para crear un objeto de partición diabetes_split con un 75% para training y un 25% para test.

Este ejercicio forma parte del curso

Machine Learning con modelos basados en árboles en R

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Preparation
set.seed(9888)
diabetes_split <- initial_split(diabetes, prop = 0.75)

# Proportion of 'yes' outcomes in the training data
counts_train <- table(training(___)$outcome)
prop_yes_train <- counts_train["___"] / sum(counts_train)

# Proportion of 'yes' outcomes in the test data
counts_test <- table(___)
prop_yes_test <- ___ / sum(___)

paste("Proportion of positive outcomes in training set:", round(prop_yes_train, 2))
paste("Proportion of positive outcomes in test set:", round(prop_yes_test, 2))

Editar y ejecutar código

Este ejercicio forma parte del curso

Machine Learning con modelos basados en árboles en R

PrincipianteNivel de habilidad

4.9+

Comienza el curso gratis

¿Listo para construir un flujo real de Machine Learning? Completa ejercicios paso a paso para aprender a crear árboles de decisión, dividir tus datos y predecir qué pacientes tienen más probabilidad de sufrir diabetes. Por último, crearás métricas de rendimiento para evaluar tus modelos y juzgar tus predicciones.

Exercise 1: ¡Bienvenido al curso!Exercise 2: ¿Por qué métodos basados en árboles?Exercise 3: Especifica ese árbol Exercise 4: Entrena ese modelo Exercise 5: Cómo hacer crecer tu árbol Exercise 6: División train/test Exercise 7: Evitar desequilibrios de clases

Ejercicio actual

Exercise 8: De cero a experto Exercise 9: Predecir y evaluar Exercise 10: Haz predicciones Exercise 11: Descifra la matriz Exercise 12: ¿Estás prediciendo correctamente?

¿Te apetece algo dulce? Usa un conjunto de datos de valoraciones de chocolate para construir árboles de regresión y evaluar su rendimiento con medidas de error adecuadas. Superarás la incertidumbre estadística de una única división train/test aplicando técnicas “dulces” como la validación cruzada y luego profundizarás aún más dominando el equilibrio sesgo-varianza.

Exercise 1: Resultados continuos Exercise 2: Entrena un árbol de regresión Exercise 3: Predecir nuevos valores Exercise 4: Inspeccionar la salida del modelo Exercise 5: Métricas de rendimiento para árboles de regresión Exercise 6: Rendimiento in-sample Exercise 7: Rendimiento fuera de muestra Exercise 8: Errores más grandes, mayor penalización Exercise 9: Validación cruzada Exercise 10: Crea las particiones Exercise 11: Ajusta los pliegues Exercise 12: Evalúa los pliegues Exercise 13: Compensación sesgo-varianza Exercise 14: Llama a las cosas por su nombre Exercise 15: Ajusta la complejidad del modelo Exercise 16: Rendimiento in-sample y out-of-sample

Es hora de ponerse serios ajustando tus hiperparámetros e interpretando curvas ROC (receiver operating characteristic). En este capítulo, aprovecharás la sabiduría del conjunto con modelos como bagging o random forests y construirás ensembles que pronostiquen qué clientes de tarjeta de crédito tienen más probabilidad de darse de baja.

Exercise 1: Ajuste de hiperparámetros Exercise 2: Genera una rejilla de ajuste Exercise 3: Ajusta a lo largo de la cuadrícula Exercise 4: Elige al ganador Exercise 5: Más métricas del modelo Exercise 6: Calcular la especificidad Exercise 7: Dibuja la curva ROC Exercise 8: Área bajo la curva ROC Exercise 9: Árboles con bagging Exercise 10: Crear árboles con bagging Exercise 11: ROC y AUC dentro de la muestra Exercise 12: Comprueba si hay sobreajuste Exercise 13: Random forest Exercise 14: Árboles con bagging vs. random forest Exercise 15: Importancia de variables

¿Preparado para la alta gama de los modelos basados en árboles? Aplica gradient boosting para crear conjuntos potentes que superen todo lo que has visto o construido. Aprende a afinarlos y a comparar distintos modelos para elegir un ganador para producción.

Exercise 1: Introducción al boosting Exercise 2: Bagging vs. boosting Exercise 3: Especifica un conjunto potenciado (boosted)Exercise 4: Gradient boosting Exercise 5: Entrena un conjunto potenciado Exercise 6: Evalúa el conjunto Exercise 7: Comparar con un solo clasificador Exercise 8: Optimiza el conjunto potenciado Exercise 9: Preparación del ajuste Exercise 10: La afinación propiamente dicha Exercise 11: Finaliza el modelo Exercise 12: Comparación de modelos Exercise 13: Comparar AUC Exercise 14: Traza curvas ROC Exercise 15: Cierre