One-hot encoderen van kredietgegevens
Tijd om de niet-numerieke kolommen voor te bereiden zodat je ze kunt toevoegen aan je LogisticRegression()-model.
Zodra de nieuwe kolommen zijn gemaakt met one-hot encoding, kun je ze samenvoegen met de numerieke kolommen om een nieuw DataFrame te maken. Dit gebruik je in de rest van de cursus om de probability of default te voorspellen.
Vergeet niet: pas one-hot encoding alleen toe op de niet-numerieke kolommen. Doe je dit op de numerieke kolommen, dan krijg je een extreem brede gegevensset!
De kredietleengegevens, cr_loan_clean, zijn al in de werkruimte geladen.
Deze oefening maakt deel uit van de cursus
Kredietrisicomodellering in Python
Oefeninstructies
- Maak een gegevensset voor alle numerieke kolommen met de naam
cred_numen een voor de niet-numerieke kolommen met de naamcred_str. - Gebruik one-hot encoding op
cred_strom een nieuwe gegevenssetcred_str_onehotte maken. - Voeg
cred_numsamen met de nieuw one-hot encoded gegevens en sla het resultaat op alscr_loan_prep. - Print de kolommen van de nieuwe gegevensset.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create two data sets for numeric and non-numeric data
____ = ____.select_dtypes(exclude=['object'])
____ = ____.select_dtypes(include=['object'])
# One-hot encode the non-numeric columns
____ = pd.____(____)
# Union the one-hot encoded columns to the numeric ones
____ = pd.concat([____, ____], axis=1)
# Print the columns in the new data set
print(____.columns)