Dados de crédito de codificação única
É hora de preparar as colunas não numéricas para que possam ser adicionadas ao seu modelo LogisticRegression()
.
Depois que as novas colunas forem criadas usando a codificação de um ponto, você poderá concatená-las com as colunas numéricas para criar um novo quadro de dados que será usado durante o restante do curso para prever a probabilidade de inadimplência.
Lembre-se de codificar apenas uma vez as colunas não numéricas. Ao fazer isso com as colunas numéricas, você criaria um conjunto de dados incrivelmente amplo!
Os dados do empréstimo de crédito, cr_loan_clean
, já foram carregados no espaço de trabalho.
Este exercício faz parte do curso
Modelagem de risco de crédito em Python
Instruções de exercício
- Crie um conjunto de dados para todas as colunas numéricas chamado
cred_num
e um para as colunas não numéricas chamadocred_str
. - Use a codificação one-hot em
cred_str
para criar um novo conjunto de dados chamadocred_str_onehot
. - Unir
cred_num
com os novos dados codificados em um único ponto e armazenar os resultados comocr_loan_prep
. - Imprima as colunas do novo conjunto de dados.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Create two data sets for numeric and non-numeric data
____ = ____.select_dtypes(exclude=['object'])
____ = ____.select_dtypes(include=['object'])
# One-hot encode the non-numeric columns
____ = pd.____(____)
# Union the one-hot encoded columns to the numeric ones
____ = pd.concat([____, ____], axis=1)
# Print the columns in the new data set
print(____.columns)