Codificaciones categóricas
Tu compañero ha convertido las columnas del conjunto de datos de crédito a valores numéricos usando LabelEncoder(). Se dejó una fuera: credit_history, que recoge el historial crediticio de la persona solicitante. Quieres crear dos versiones del conjunto de datos. Una usará LabelEncoder() y otra usará one-hot encoding, para poder compararlas. La matriz de características está disponible como credit. Tienes LabelEncoder() precargado y pandas como pd.
Este ejercicio forma parte del curso
Diseño de flujos de trabajo de Machine Learning en Python
Instrucciones del ejercicio
- Codifica
credit_historyconLabelEncoder(). - Concatena el resultado al marco original.
- Crea un nuevo marco de datos concatenando las dummies del one-hot encoding al marco original.
- Confirma que el one-hot encoding produce más columnas que el label encoding.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create numeric encoding for credit_history
credit_history_num = ____.____(
credit[____])
# Create a new feature matrix including the numeric encoding
X_num = pd.concat([X, pd.Series(____)], ____)
# Create new feature matrix with dummies for credit_history
X_hot = pd.concat(
[X, ____.____(credit[____])], ____)
# Compare the number of features of the resulting DataFrames
print(X_hot.shape[____] > X_num.shape[____])