ComeçarComece de graça

One-hot encoding em dados de crédito

É hora de preparar as colunas não numéricas para que possam ser usadas no seu modelo LogisticRegression().

Depois que as novas colunas forem criadas usando one-hot encoding, você pode concatená-las com as colunas numéricas para criar um novo data frame que será usado ao longo do restante do curso para prever a probabilidade de inadimplência.

Lembre-se de aplicar one-hot encoding apenas às colunas não numéricas. Fazer isso nas colunas numéricas criaria um conjunto de dados extremamente largo!

Os dados de crédito, cr_loan_clean, já foram carregados no workspace.

Este exercício faz parte do curso

Modelagem de Risco de Crédito em Python

Ver curso

Instruções do exercício

  • Crie um conjunto de dados para todas as colunas numéricas chamado cred_num e outro para as colunas não numéricas chamado cred_str.
  • Use one-hot encoding em cred_str para criar um novo conjunto de dados chamado cred_str_onehot.
  • Una cred_num com os novos dados one-hot encoded e armazene o resultado como cr_loan_prep.
  • Imprima as colunas do novo conjunto de dados.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create two data sets for numeric and non-numeric data
____ = ____.select_dtypes(exclude=['object'])
____ = ____.select_dtypes(include=['object'])

# One-hot encode the non-numeric columns
____ = pd.____(____)

# Union the one-hot encoded columns to the numeric ones
____ = pd.concat([____, ____], axis=1)

# Print the columns in the new data set
print(____.columns)
Editar e executar o código