Subamostragem de dados de treinamento
É hora de você mesmo fazer uma subamostragem do conjunto de treinamento com algumas linhas de código de Pandas
. Quando a subamostragem estiver concluída, você poderá verificar as contagens de valores em loan_status
para verificar os resultados.
X_y_train``count_nondefault
, e count_default
já estão carregados no espaço de trabalho. Eles foram criados usando o código a seguir:
X_y_train = pd.concat([X_train.reset_index(drop = True),
y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()
O site .value_counts()
para os dados de treinamento originais será impresso automaticamente.
Este exercício faz parte do curso
Modelagem de risco de crédito em Python
Instruções do exercício
- Crie conjuntos de dados de não padrões e padrões armazenados como
nondefaults
edefaults
. - Faça uma amostragem do
nondefaults
com o mesmo número docount_default
e armazene-o comonondefaults_under
. - Concatene
nondefaults
edefaults
usando.concat()
e armazene-o comoX_y_train_under
. - Imprima o
.value_counts()
do status do empréstimo para o novo conjunto de dados.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create data sets for defaults and non-defaults
____ = ____[____[____] == 0]
____ = ____[____[____] == 1]
# Undersample the non-defaults
____ = nondefaults.sample(____)
# Concatenate the undersampled nondefaults with defaults
____ = pd.____([____.reset_index(drop = True),
____.reset_index(drop = True)], axis = 0)
# Print the value counts for loan status
print(____[____].____())