Undersampling nos dados de treinamento

É hora de você mesmo fazer o undersampling do conjunto de treinamento com algumas linhas de código do Pandas. Quando terminar, confira as contagens de valores de loan_status para verificar os resultados.

X_y_train, count_nondefault e count_default já estão carregados no ambiente. Eles foram criados com o seguinte código:

X_y_train = pd.concat([X_train.reset_index(drop = True),
                       y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()

O .value_counts() dos dados originais de treinamento será impresso automaticamente.

Este exercicio faz parte do curso

Modelagem de Risco de Crédito em Python

Ver curso

Instruções do exercicio

Crie conjuntos de dados de não inadimplentes e inadimplentes, armazenados como nondefaults e defaults.
Faça uma amostragem de nondefaults para o mesmo número de count_default e armazene como nondefaults_under.
Concatene nondefaults e defaults usando .concat() e armazene como X_y_train_under.
Imprima o .value_counts() do status do empréstimo para o novo conjunto de dados.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create data sets for defaults and non-defaults
____ = ____[____[____] == 0]
____ = ____[____[____] == 1]

# Undersample the non-defaults
____ = nondefaults.sample(____)

# Concatenate the undersampled nondefaults with defaults
____ = pd.____([____.reset_index(drop = True),
                             ____.reset_index(drop = True)], axis = 0)

# Print the value counts for loan status
print(____[____].____())

Editar e Executar Código