ComenzarEmpieza gratis

Datos crediticios con codificación one-hot

Es hora de preparar las columnas no numéricas para que puedan añadirse a tu modelo LogisticRegression().

Una vez creadas las nuevas columnas mediante la codificación de un punto, puedes concatenarlas con las columnas numéricas para crear un nuevo marco de datos que se utilizará durante el resto del curso para predecir la probabilidad de impago.

Recuerda que solo debes codificar en un punto las columnas no numéricas. ¡Hacer esto con las columnas numéricas crearía un conjunto de datos increíblemente amplio!

Los datos del préstamo de crédito, cr_loan_clean, ya se han cargado en el espacio de trabajo.

Este ejercicio forma parte del curso

Modelado del riesgo crediticio en Python

Ver curso

Instrucciones de ejercicio

  • Crea un conjunto de datos para todas las columnas numéricas llamado cred_num y otro para las columnas no numéricas llamado cred_str.
  • Utiliza la codificación de una sola vez en cred_str para crear un nuevo conjunto de datos llamado cred_str_onehot.
  • Une cred_num con los nuevos datos codificados de un solo golpe y almacena los resultados como cr_loan_prep.
  • Imprime las columnas del nuevo conjunto de datos.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Create two data sets for numeric and non-numeric data
____ = ____.select_dtypes(exclude=['object'])
____ = ____.select_dtypes(include=['object'])

# One-hot encode the non-numeric columns
____ = pd.____(____)

# Union the one-hot encoded columns to the numeric ones
____ = pd.concat([____, ____], axis=1)

# Print the columns in the new data set
print(____.columns)
Editar y ejecutar código