ComeçarComece de graça

Subamostragem de dados de treinamento

É hora de você mesmo fazer uma subamostragem do conjunto de treinamento com algumas linhas de código de Pandas. Quando a subamostragem estiver concluída, você poderá verificar as contagens de valores em loan_status para verificar os resultados.

X_y_train``count_nondefault, e count_default já estão carregados no espaço de trabalho. Eles foram criados usando o código a seguir:

X_y_train = pd.concat([X_train.reset_index(drop = True),

                       y_train.reset_index(drop = True)], axis = 1)

count_nondefault, count_default = X_y_train['loan_status'].value_counts()

O site .value_counts() para os dados de treinamento originais será impresso automaticamente.

Este exercício faz parte do curso

Modelagem de risco de crédito em Python

Ver curso

Instruções do exercício

  • Crie conjuntos de dados de não padrões e padrões armazenados como nondefaults e defaults.
  • Faça uma amostragem do nondefaults com o mesmo número do count_default e armazene-o como nondefaults_under.
  • Concatene nondefaults e defaults usando .concat() e armazene-o como X_y_train_under.
  • Imprima o .value_counts() do status do empréstimo para o novo conjunto de dados.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create data sets for defaults and non-defaults
____ = ____[____[____] == 0]
____ = ____[____[____] == 1]

# Undersample the non-defaults
____ = nondefaults.sample(____)

# Concatenate the undersampled nondefaults with defaults
____ = pd.____([____.reset_index(drop = True),
                             ____.reset_index(drop = True)], axis = 0)

# Print the value counts for loan status
print(____[____].____())
Editar e executar o código