ComenzarEmpieza gratis

Codificación en caliente de columnas específicas

Un concesionario local de coches usados quiere tu ayuda para predecir el precio de venta de sus vehículos. Si utilizas la codificación de una sola vez en todo el conjunto de datos used_cars, el nuevo conjunto de datos tiene más de 1.200 columnas. Te preocupa que esto pueda provocar problemas a la hora de entrenar tus modelos de aprendizaje automático para predecir el precio. Has decidido probar un enfoque más sencillo y utilizar sólo la codificación de una sola vez en unas pocas columnas.

Este ejercicio forma parte del curso

Trabajar con datos categóricos en Python

Ver curso

Instrucciones de ejercicio

  • Crea un nuevo conjunto de datos, used_cars_simple, con codificación de una sola vez para estas columnas: "manufacturer_name" y "transmission" (en este orden).
  • Establece el prefijo de todas las columnas nuevas en "dummy", para que puedas filtrar fácilmente a las columnas recién creadas.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Create one-hot encoding for just two columns
used_cars_simple = pd.____(
  used_cars,
  # Specify the columns from the instructions
  ____,
  # Set the prefix
  ____
)

# Print the shape of the new dataset
print(used_cars_simple.shape)
Editar y ejecutar código