ComeçarComece gratuitamente

Dados de crédito de codificação única

É hora de preparar as colunas não numéricas para que possam ser adicionadas ao seu modelo LogisticRegression().

Depois que as novas colunas forem criadas usando a codificação de um ponto, você poderá concatená-las com as colunas numéricas para criar um novo quadro de dados que será usado durante o restante do curso para prever a probabilidade de inadimplência.

Lembre-se de codificar apenas uma vez as colunas não numéricas. Ao fazer isso com as colunas numéricas, você criaria um conjunto de dados incrivelmente amplo!

Os dados do empréstimo de crédito, cr_loan_clean, já foram carregados no espaço de trabalho.

Este exercício faz parte do curso

Modelagem de risco de crédito em Python

Ver Curso

Instruções de exercício

  • Crie um conjunto de dados para todas as colunas numéricas chamado cred_num e um para as colunas não numéricas chamado cred_str.
  • Use a codificação one-hot em cred_str para criar um novo conjunto de dados chamado cred_str_onehot.
  • Unir cred_num com os novos dados codificados em um único ponto e armazenar os resultados como cr_loan_prep.
  • Imprima as colunas do novo conjunto de dados.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Create two data sets for numeric and non-numeric data
____ = ____.select_dtypes(exclude=['object'])
____ = ____.select_dtypes(include=['object'])

# One-hot encode the non-numeric columns
____ = pd.____(____)

# Union the one-hot encoded columns to the numeric ones
____ = pd.concat([____, ____], axis=1)

# Print the columns in the new data set
print(____.columns)
Editar e executar código