One-hot encoderen van kredietgegevens

Tijd om de niet-numerieke kolommen voor te bereiden zodat je ze kunt toevoegen aan je LogisticRegression()-model.

Zodra de nieuwe kolommen zijn gemaakt met one-hot encoding, kun je ze samenvoegen met de numerieke kolommen om een nieuw DataFrame te maken. Dit gebruik je in de rest van de cursus om de probability of default te voorspellen.

Vergeet niet: pas one-hot encoding alleen toe op de niet-numerieke kolommen. Doe je dit op de numerieke kolommen, dan krijg je een extreem brede gegevensset!

De kredietleengegevens, cr_loan_clean, zijn al in de werkruimte geladen.

Deze oefening maakt deel uit van de cursus

Kredietrisicomodellering in Python

Bekijk cursus

Oefeninstructies

Maak een gegevensset voor alle numerieke kolommen met de naam cred_num en een voor de niet-numerieke kolommen met de naam cred_str.
Gebruik one-hot encoding op cred_str om een nieuwe gegevensset cred_str_onehot te maken.
Voeg cred_num samen met de nieuw one-hot encoded gegevens en sla het resultaat op als cr_loan_prep.
Print de kolommen van de nieuwe gegevensset.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create two data sets for numeric and non-numeric data
____ = ____.select_dtypes(exclude=['object'])
____ = ____.select_dtypes(include=['object'])

# One-hot encode the non-numeric columns
____ = pd.____(____)

# Union the one-hot encoded columns to the numeric ones
____ = pd.concat([____, ____], axis=1)

# Print the columns in the new data set
print(____.columns)

Code bewerken en uitvoeren