Datos crediticios con codificación one-hot
Es hora de preparar las columnas no numéricas para que puedan añadirse a tu modelo LogisticRegression()
.
Una vez creadas las nuevas columnas mediante la codificación de un punto, puedes concatenarlas con las columnas numéricas para crear un nuevo marco de datos que se utilizará durante el resto del curso para predecir la probabilidad de impago.
Recuerda que solo debes codificar en un punto las columnas no numéricas. ¡Hacer esto con las columnas numéricas crearía un conjunto de datos increíblemente amplio!
Los datos del préstamo de crédito, cr_loan_clean
, ya se han cargado en el espacio de trabajo.
Este ejercicio forma parte del curso
Modelado del riesgo crediticio en Python
Instrucciones de ejercicio
- Crea un conjunto de datos para todas las columnas numéricas llamado
cred_num
y otro para las columnas no numéricas llamadocred_str
. - Utiliza la codificación de una sola vez en
cred_str
para crear un nuevo conjunto de datos llamadocred_str_onehot
. - Une
cred_num
con los nuevos datos codificados de un solo golpe y almacena los resultados comocr_loan_prep
. - Imprime las columnas del nuevo conjunto de datos.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Create two data sets for numeric and non-numeric data
____ = ____.select_dtypes(exclude=['object'])
____ = ____.select_dtypes(include=['object'])
# One-hot encode the non-numeric columns
____ = pd.____(____)
# Union the one-hot encoded columns to the numeric ones
____ = pd.concat([____, ____], axis=1)
# Print the columns in the new data set
print(____.columns)