Submuestreo de los datos de entrenamiento
Es hora de submuestrear tú mismo el conjunto de entrenamiento con unas pocas líneas de código de Pandas
. Una vez finalizado el submuestreo, puedes comprobar los recuentos de valores en loan_status
para verificar los resultados.
X_y_train
, count_nondefault
, y count_default
ya están cargados en el espacio de trabajo. Se han creado utilizando el siguiente código:
X_y_train = pd.concat([X_train.reset_index(drop = True),
y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()
El .value_counts()
de los datos de entrenamiento originales se imprimirá automáticamente.
Este ejercicio forma parte del curso
Modelado del riesgo crediticio en Python
Instrucciones del ejercicio
- Crea conjuntos de datos de no predeterminados y predeterminados almacenados como
nondefaults
ydefaults
. - Muestrea el
nondefaults
al mismo número quecount_default
y guárdalo comonondefaults_under
. - Concatena
nondefaults
ydefaults
mediante.concat()
y guárdalo comoX_y_train_under
. - Imprime el
.value_counts()
del estado del préstamo para el nuevo conjunto de datos.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Create data sets for defaults and non-defaults
____ = ____[____[____] == 0]
____ = ____[____[____] == 1]
# Undersample the non-defaults
____ = nondefaults.sample(____)
# Concatenate the undersampled nondefaults with defaults
____ = pd.____([____.reset_index(drop = True),
____.reset_index(drop = True)], axis = 0)
# Print the value counts for loan status
print(____[____].____())