CommencerCommencer gratuitement

Encoder les variables catégorielles et mettre à l’échelle les variables numériques

Dans cette dernière étape, vous allez effectuer un one-hot encoding sur les variables catégorielles, puis mettre à l’échelle les colonnes numériques. La bibliothèque pandas a été chargée pour vous sous le nom pd, ainsi que le module StandardScaler depuis sklearn.preprocessing.

Le jeu de données brut de churn télécom telco_raw a été chargé pour vous en tant que DataFrame pandas, ainsi que les listes custid, target, categorical et numerical contenant les noms de colonnes que vous avez créés dans l’exercice précédent. Vous pouvez vous familiariser avec le jeu de données en l’explorant dans la console.

Cet exercice fait partie du cours

Machine Learning pour le marketing en Python

Afficher le cours

Instructions

  • Effectuez un one-hot encoding sur les variables catégorielles.
  • Initialisez une instance de StandardScaler.
  • Ajustez et transformez le scaler sur les colonnes numériques.
  • Construisez un DataFrame à partir de scaled_numerical.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Perform one-hot encoding to categorical variables 
telco_raw = pd.get_dummies(data = ___, columns = categorical, drop_first=True)

# Initialize StandardScaler instance
scaler = ___()

# Fit and transform the scaler on numerical columns
scaled_numerical = ___.fit_transform(telco_raw[___])

# Build a DataFrame from scaled_numerical
scaled_numerical = pd.DataFrame(___, columns=numerical)
Modifier et exécuter le code