Encoder les variables catégorielles et mettre à l’échelle les variables numériques
Dans cette dernière étape, vous allez effectuer un one-hot encoding sur les variables catégorielles, puis mettre à l’échelle les colonnes numériques. La bibliothèque pandas a été chargée pour vous sous le nom pd, ainsi que le module StandardScaler depuis sklearn.preprocessing.
Le jeu de données brut de churn télécom telco_raw a été chargé pour vous en tant que DataFrame pandas, ainsi que les listes custid, target, categorical et numerical contenant les noms de colonnes que vous avez créés dans l’exercice précédent. Vous pouvez vous familiariser avec le jeu de données en l’explorant dans la console.
Cet exercice fait partie du cours
Machine Learning pour le marketing en Python
Instructions
- Effectuez un one-hot encoding sur les variables catégorielles.
- Initialisez une instance de
StandardScaler. - Ajustez et transformez le
scalersur les colonnes numériques. - Construisez un DataFrame à partir de
scaled_numerical.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Perform one-hot encoding to categorical variables
telco_raw = pd.get_dummies(data = ___, columns = categorical, drop_first=True)
# Initialize StandardScaler instance
scaler = ___()
# Fit and transform the scaler on numerical columns
scaled_numerical = ___.fit_transform(telco_raw[___])
# Build a DataFrame from scaled_numerical
scaled_numerical = pd.DataFrame(___, columns=numerical)