One-hot encoding em dados de crédito
É hora de preparar as colunas não numéricas para que possam ser usadas no seu modelo LogisticRegression().
Depois que as novas colunas forem criadas usando one-hot encoding, você pode concatená-las com as colunas numéricas para criar um novo data frame que será usado ao longo do restante do curso para prever a probabilidade de inadimplência.
Lembre-se de aplicar one-hot encoding apenas às colunas não numéricas. Fazer isso nas colunas numéricas criaria um conjunto de dados extremamente largo!
Os dados de crédito, cr_loan_clean, já foram carregados no workspace.
Este exercício faz parte do curso
Modelagem de Risco de Crédito em Python
Instruções do exercício
- Crie um conjunto de dados para todas as colunas numéricas chamado
cred_nume outro para as colunas não numéricas chamadocred_str. - Use one-hot encoding em
cred_strpara criar um novo conjunto de dados chamadocred_str_onehot. - Una
cred_numcom os novos dados one-hot encoded e armazene o resultado comocr_loan_prep. - Imprima as colunas do novo conjunto de dados.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create two data sets for numeric and non-numeric data
____ = ____.select_dtypes(exclude=['object'])
____ = ____.select_dtypes(include=['object'])
# One-hot encode the non-numeric columns
____ = pd.____(____)
# Union the one-hot encoded columns to the numeric ones
____ = pd.concat([____, ____], axis=1)
# Print the columns in the new data set
print(____.columns)