ComenzarEmpieza gratis

Codificaciones categóricas

Tu compañero ha convertido las columnas del conjunto de datos de crédito a valores numéricos usando LabelEncoder(). Se dejó una fuera: credit_history, que recoge el historial crediticio de la persona solicitante. Quieres crear dos versiones del conjunto de datos. Una usará LabelEncoder() y otra usará one-hot encoding, para poder compararlas. La matriz de características está disponible como credit. Tienes LabelEncoder() precargado y pandas como pd.

Este ejercicio forma parte del curso

Diseño de flujos de trabajo de Machine Learning en Python

Ver curso

Instrucciones del ejercicio

  • Codifica credit_history con LabelEncoder().
  • Concatena el resultado al marco original.
  • Crea un nuevo marco de datos concatenando las dummies del one-hot encoding al marco original.
  • Confirma que el one-hot encoding produce más columnas que el label encoding.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create numeric encoding for credit_history
credit_history_num = ____.____(
  credit[____])

# Create a new feature matrix including the numeric encoding
X_num = pd.concat([X, pd.Series(____)], ____)

# Create new feature matrix with dummies for credit_history
X_hot = pd.concat(
  [X, ____.____(credit[____])], ____)

# Compare the number of features of the resulting DataFrames
print(X_hot.shape[____] > X_num.shape[____])
Editar y ejecutar código