One-hot encoding em dados de crédito

É hora de preparar as colunas não numéricas para que possam ser usadas no seu modelo LogisticRegression().

Depois que as novas colunas forem criadas usando one-hot encoding, você pode concatená-las com as colunas numéricas para criar um novo data frame que será usado ao longo do restante do curso para prever a probabilidade de inadimplência.

Lembre-se de aplicar one-hot encoding apenas às colunas não numéricas. Fazer isso nas colunas numéricas criaria um conjunto de dados extremamente largo!

Os dados de crédito, cr_loan_clean, já foram carregados no workspace.

Este exercicio faz parte do curso

Modelagem de Risco de Crédito em Python

Ver curso

Instruções do exercicio

Crie um conjunto de dados para todas as colunas numéricas chamado cred_num e outro para as colunas não numéricas chamado cred_str.
Use one-hot encoding em cred_str para criar um novo conjunto de dados chamado cred_str_onehot.
Una cred_num com os novos dados one-hot encoded e armazene o resultado como cr_loan_prep.
Imprima as colunas do novo conjunto de dados.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create two data sets for numeric and non-numeric data
____ = ____.select_dtypes(exclude=['object'])
____ = ____.select_dtypes(include=['object'])

# One-hot encode the non-numeric columns
____ = pd.____(____)

# Union the one-hot encoded columns to the numeric ones
____ = pd.concat([____, ____], axis=1)

# Print the columns in the new data set
print(____.columns)

Editar e Executar Código