CommencerCommencer gratuitement

Encodage unique de colonnes spécifiques

Un concessionnaire automobile local a besoin de votre aide pour estimer le prix de vente de ses véhicules. Si vous utilisez le codage one-hot sur l'ensemble des données de l'used_cars, le nouvel ensemble de données comporte plus de 1 200 colonnes. Vous craignez que cela puisse poser des problèmes lors de l'entraînement de vos modèles d'apprentissage automatique pour prédire les prix. Vous avez décidé d'adopter une approche plus simple et de n'utiliser le codage one-hot que sur quelques colonnes.

Cet exercice fait partie du cours

Utilisation de données catégorielles dans Python

Afficher le cours

Instructions

  • Créez un nouvel ensemble de données, « used_cars_simple », avec un encodage one-hot pour les colonnes suivantes : « "manufacturer_name" » et « "transmission" » (dans cet ordre).
  • Définissez le préfixe de toutes les nouvelles colonnes sur « "dummy" » afin de pouvoir facilement filtrer les colonnes nouvellement créées.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create one-hot encoding for just two columns
used_cars_simple = pd.____(
  used_cars,
  # Specify the columns from the instructions
  ____,
  # Set the prefix
  ____
)

# Print the shape of the new dataset
print(used_cars_simple.shape)
Modifier et exécuter le code