Categorische variabelen encoden en numerieke variabelen schalen
In deze laatste stap ga je one-hot encoding toepassen op de categorische variabelen en daarna de numerieke kolommen schalen. De pandas-bibliotheek is voor je geladen als pd, evenals de StandardScaler uit de module sklearn.preprocessing.
De ruwe telecom-churngegevensset telco_raw is voor je geladen als een pandas DataFrame, net als de lijsten custid, target, categorical en numerical met kolomnamen die je in de vorige oefening hebt gemaakt. Verken de gegevensset gerust eerst in de console.
Deze oefening maakt deel uit van de cursus
Machine Learning voor marketing in Python
Oefeninstructies
- Voer one-hot encoding uit op de categorische variabelen.
- Initialiseer een
StandardScaler-instance. - Fit en transformeer de
scalerop de numerieke kolommen. - Bouw een DataFrame op uit
scaled_numerical.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Perform one-hot encoding to categorical variables
telco_raw = pd.get_dummies(data = ___, columns = categorical, drop_first=True)
# Initialize StandardScaler instance
scaler = ___()
# Fit and transform the scaler on numerical columns
scaled_numerical = ___.fit_transform(telco_raw[___])
# Build a DataFrame from scaled_numerical
scaled_numerical = pd.DataFrame(___, columns=numerical)