Encodage unique de colonnes spécifiques
Un concessionnaire automobile local a besoin de votre aide pour estimer le prix de vente de ses véhicules. Si vous utilisez le codage one-hot sur l'ensemble des données de l'used_cars
, le nouvel ensemble de données comporte plus de 1 200 colonnes. Vous craignez que cela puisse poser des problèmes lors de l'entraînement de vos modèles d'apprentissage automatique pour prédire les prix. Vous avez décidé d'adopter une approche plus simple et de n'utiliser le codage one-hot que sur quelques colonnes.
Cet exercice fait partie du cours
Utilisation de données catégorielles dans Python
Instructions
- Créez un nouvel ensemble de données, «
used_cars_simple
», avec un encodage one-hot pour les colonnes suivantes : «"manufacturer_name"
» et «"transmission"
» (dans cet ordre). - Définissez le préfixe de toutes les nouvelles colonnes sur «
"dummy"
» afin de pouvoir facilement filtrer les colonnes nouvellement créées.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create one-hot encoding for just two columns
used_cars_simple = pd.____(
used_cars,
# Specify the columns from the instructions
____,
# Set the prefix
____
)
# Print the shape of the new dataset
print(used_cars_simple.shape)