Submuestreo de los datos de entrenamiento
Es hora de submuestrear tú mismo el conjunto de entrenamiento con unas pocas líneas de código de Pandas. Una vez finalizado el submuestreo, puedes comprobar los recuentos de valores en loan_status para verificar los resultados.
X_y_train, count_nondefault, y count_default ya están cargados en el espacio de trabajo. Se han creado utilizando el siguiente código:
X_y_train = pd.concat([X_train.reset_index(drop = True),
y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()
El .value_counts() de los datos de entrenamiento originales se imprimirá automáticamente.
Este ejercicio forma parte del curso
Modelado del riesgo crediticio en Python
Instrucciones del ejercicio
- Crea conjuntos de datos de no predeterminados y predeterminados almacenados como
nondefaultsydefaults. - Muestrea el
nondefaultsal mismo número quecount_defaulty guárdalo comonondefaults_under. - Concatena
nondefaultsydefaultsmediante.concat()y guárdalo comoX_y_train_under. - Imprime el
.value_counts()del estado del préstamo para el nuevo conjunto de datos.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create data sets for defaults and non-defaults
____ = ____[____[____] == 0]
____ = ____[____[____] == 1]
# Undersample the non-defaults
____ = nondefaults.sample(____)
# Concatenate the undersampled nondefaults with defaults
____ = pd.____([____.reset_index(drop = True),
____.reset_index(drop = True)], axis = 0)
# Print the value counts for loan status
print(____[____].____())