Convertir variables categóricas
Como sklearn requiere características numéricas como entrada para los modelos, es importante codificar las variables categóricas en variables numéricas. La técnica más común, llamada "one-hot encoding", es sencilla pero consume mucha memoria. Para ello, usarás la técnica de hashing, que asigna entradas categóricas a valores numéricos, para cada columna categórica.
El módulo pandas está disponible como pd en tu espacio de trabajo y el DataFrame de ejemplo está cargado como df.
Este ejercicio forma parte del curso
Predicción del CTR con Machine Learning en Python
Instrucciones del ejercicio
- Selecciona las columnas categóricas filtrando por el tipo de dato.
- Aplica una función de hash sobre cada una de las columnas categóricas.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Get categorical columns
categorical_cols = df.____(
include = [____]).columns.tolist()
print("Categorical columns: ")
print(categorical_cols)
# Iterate over categorical columns and apply hash function
for col in ____:
df[col] = df[col].____(lambda x: ____(x))
# Print examples of new output
print(df.head(5))