ComenzarEmpieza gratis

Convertir variables categóricas

Como sklearn requiere características numéricas como entrada para los modelos, es importante codificar las variables categóricas en variables numéricas. La técnica más común, llamada "one-hot encoding", es sencilla pero consume mucha memoria. Para ello, usarás la técnica de hashing, que asigna entradas categóricas a valores numéricos, para cada columna categórica.

El módulo pandas está disponible como pd en tu espacio de trabajo y el DataFrame de ejemplo está cargado como df.

Este ejercicio forma parte del curso

Predicción del CTR con Machine Learning en Python

Ver curso

Instrucciones del ejercicio

  • Selecciona las columnas categóricas filtrando por el tipo de dato.
  • Aplica una función de hash sobre cada una de las columnas categóricas.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Get categorical columns
categorical_cols = df.____(
  include = [____]).columns.tolist()
print("Categorical columns: ")
print(categorical_cols)

# Iterate over categorical columns and apply hash function
for col in ____:
	df[col] = df[col].____(lambda x: ____(x))

# Print examples of new output
print(df.head(5))
Editar y ejecutar código