Submuestreo de los datos de entrenamiento

Es hora de submuestrear tú mismo el conjunto de entrenamiento con unas pocas líneas de código de Pandas. Una vez finalizado el submuestreo, puedes comprobar los recuentos de valores en loan_status para verificar los resultados.

X_y_train, count_nondefault, y count_default ya están cargados en el espacio de trabajo. Se han creado utilizando el siguiente código:

X_y_train = pd.concat([X_train.reset_index(drop = True),

                       y_train.reset_index(drop = True)], axis = 1)

count_nondefault, count_default = X_y_train['loan_status'].value_counts()

El .value_counts() de los datos de entrenamiento originales se imprimirá automáticamente.

Este ejercicio forma parte del curso

Modelado del riesgo crediticio en Python

Ver curso

Instrucciones del ejercicio

Crea conjuntos de datos de no predeterminados y predeterminados almacenados como nondefaults y defaults.
Muestrea el nondefaults al mismo número que count_default y guárdalo como nondefaults_under.
Concatena nondefaults y defaults mediante .concat() y guárdalo como X_y_train_under.
Imprime el .value_counts() del estado del préstamo para el nuevo conjunto de datos.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Create data sets for defaults and non-defaults
____ = ____[____[____] == 0]
____ = ____[____[____] == 1]

# Undersample the non-defaults
____ = nondefaults.sample(____)

# Concatenate the undersampled nondefaults with defaults
____ = pd.____([____.reset_index(drop = True),
                             ____.reset_index(drop = True)], axis = 0)

# Print the value counts for loan status
print(____[____].____())

Editar y ejecutar código