ComenzarEmpieza gratis

Codificación única de columnas específicas

Un concesionario local de coches usados necesita tu ayuda para predecir el precio de venta de sus vehículos. Si utilizas la codificación one-hot en todo el conjunto de datos used_cars, el nuevo conjunto de datos tendrá más de 1200 columnas. Te preocupa que esto pueda causar problemas al entrenar tus modelos de machine learning para predecir precios. Has decidido probar un enfoque más sencillo y utilizar la codificación one-hot solo en algunas columnas.

Este ejercicio forma parte del curso

Trabajar con datos categóricos en Python

Ver curso

Instrucciones del ejercicio

  • Crea un nuevo conjunto de datos, used_cars_simple, con codificación one-hot para estas columnas: "manufacturer_name" y "transmission" (en este orden).
  • Establece el prefijo de todas las columnas nuevas en "dummy", para que puedas filtrar fácilmente las columnas recién creadas.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Create one-hot encoding for just two columns
used_cars_simple = pd.____(
  used_cars,
  # Specify the columns from the instructions
  ____,
  # Set the prefix
  ____
)

# Print the shape of the new dataset
print(used_cars_simple.shape)
Editar y ejecutar código