IniziaInizia gratis

One-hot encoding dei dati di credito

È il momento di preparare le colonne non numeriche così da poterle aggiungere al tuo modello LogisticRegression().

Una volta create le nuove colonne tramite one-hot encoding, puoi concatenarle con le colonne numeriche per creare un nuovo data frame che userai per il resto del corso per prevedere la probability of default.

Ricorda di applicare il one-hot encoding solo alle colonne non numeriche. Farlo sulle colonne numeriche creerebbe un insieme di dati incredibilmente largo!

I dati sui prestiti, cr_loan_clean, sono già stati caricati nell'area di lavoro.

Questo esercizio fa parte del corso

Credit Risk Modeling in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Crea un insieme di dati per tutte le colonne numeriche chiamato cred_num e uno per le colonne non numeriche chiamato cred_str.
  • Applica il one-hot encoding a cred_str per creare un nuovo insieme di dati chiamato cred_str_onehot.
  • Unisci cred_num con i nuovi dati one-hot encoded e salva il risultato come cr_loan_prep.
  • Stampa le colonne del nuovo insieme di dati.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create two data sets for numeric and non-numeric data
____ = ____.select_dtypes(exclude=['object'])
____ = ____.select_dtypes(include=['object'])

# One-hot encode the non-numeric columns
____ = pd.____(____)

# Union the one-hot encoded columns to the numeric ones
____ = pd.concat([____, ____], axis=1)

# Print the columns in the new data set
print(____.columns)
Modifica ed esegui il codice