Codificación única de columnas específicas
Un concesionario local de coches usados necesita tu ayuda para predecir el precio de venta de sus vehículos. Si utilizas la codificación one-hot en todo el conjunto de datos used_cars
, el nuevo conjunto de datos tendrá más de 1200 columnas. Te preocupa que esto pueda causar problemas al entrenar tus modelos de machine learning para predecir precios. Has decidido probar un enfoque más sencillo y utilizar la codificación one-hot solo en algunas columnas.
Este ejercicio forma parte del curso
Trabajar con datos categóricos en Python
Instrucciones del ejercicio
- Crea un nuevo conjunto de datos,
used_cars_simple
, con codificación one-hot para estas columnas:"manufacturer_name"
y"transmission"
(en este orden). - Establece el prefijo de todas las columnas nuevas en
"dummy"
, para que puedas filtrar fácilmente las columnas recién creadas.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Create one-hot encoding for just two columns
used_cars_simple = pd.____(
used_cars,
# Specify the columns from the instructions
____,
# Set the prefix
____
)
# Print the shape of the new dataset
print(used_cars_simple.shape)