One-hot encoding dei dati di credito
È il momento di preparare le colonne non numeriche così da poterle aggiungere al tuo modello LogisticRegression().
Una volta create le nuove colonne tramite one-hot encoding, puoi concatenarle con le colonne numeriche per creare un nuovo data frame che userai per il resto del corso per prevedere la probability of default.
Ricorda di applicare il one-hot encoding solo alle colonne non numeriche. Farlo sulle colonne numeriche creerebbe un insieme di dati incredibilmente largo!
I dati sui prestiti, cr_loan_clean, sono già stati caricati nell'area di lavoro.
Questo esercizio fa parte del corso
Credit Risk Modeling in Python
Istruzioni dell'esercizio
- Crea un insieme di dati per tutte le colonne numeriche chiamato
cred_nume uno per le colonne non numeriche chiamatocred_str. - Applica il one-hot encoding a
cred_strper creare un nuovo insieme di dati chiamatocred_str_onehot. - Unisci
cred_numcon i nuovi dati one-hot encoded e salva il risultato comecr_loan_prep. - Stampa le colonne del nuovo insieme di dati.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create two data sets for numeric and non-numeric data
____ = ____.select_dtypes(exclude=['object'])
____ = ____.select_dtypes(include=['object'])
# One-hot encode the non-numeric columns
____ = pd.____(____)
# Union the one-hot encoded columns to the numeric ones
____ = pd.concat([____, ____], axis=1)
# Print the columns in the new data set
print(____.columns)