Técnicas de remuestreo
En el último ejercicio, viste cómo el desbalanceo de clases puede afectar los resultados de tu matriz de confusión. En este ejercicio, practicarás técnicas de remuestreo para explorar los distintos resultados que pueden darse con estilos alternativos de remuestreo en un conjunto de datos con desbalanceo de clases como loan_data. Con la función resample() de sklearn, igualar el número de filas de la clase mayoritaria se llama upsampling, mientras que igualar el número de filas de la clase minoritaria se llama downsampling.
Crearás una versión con upsampling y otra con downsampling del conjunto loan_data, aplicarás una regresión logística en ambas y luego evaluarás el rendimiento. Los datos de entrenamiento y sus etiquetas que corresponden a deny se han filtrado para contener solo la clase minoritaria y las de approve corresponden a la clase mayoritaria.
Para hacer predicciones, tienes guardado en el espacio de trabajo un objeto de test de la partición train/test como X_test para usar en los ejercicios.
Este ejercicio forma parte del curso
Practicing Machine Learning Interview Questions in Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Upsample minority and combine with majority
loans_upsampled = ____(deny, replace=True, n_samples=len(____), random_state=123)
upsampled = pd.concat([approve, loans_upsampled])
# Downsample majority and combine with minority
loans_downsampled = ____(____, replace = False, n_samples = len(deny), random_state = 123)
downsampled = pd.concat([loans_downsampled, deny])