Kategorien encodieren und numerische Variablen skalieren
In diesem letzten Schritt führst du One-Hot-Encoding für die kategorialen Variablen durch und skalierst anschließend die numerischen Spalten. Die Bibliothek pandas wurde bereits als pd geladen, ebenso das Modul StandardScaler aus dem Modul sklearn.preprocessing.
Der Rohdatensatz zum Telekommunikations-Churn telco_raw wurde als pandas DataFrame geladen, ebenso die Listen custid, target, categorical und numerical mit Spaltennamen, die du in der vorherigen Aufgabe erstellt hast. Du kannst dich im Konsolenfenster mit dem Datensatz vertraut machen, indem du ihn dort erkundest.
Diese Übung ist Teil des Kurses
Machine Learning für Marketing mit Python
Anleitung zur Übung
- Führe One-Hot-Encoding für die kategorialen Variablen durch.
- Initialisiere eine
StandardScaler-Instanz. - Fitte und transformiere den
scalerauf den numerischen Spalten. - Erstelle ein DataFrame aus
scaled_numerical.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Perform one-hot encoding to categorical variables
telco_raw = pd.get_dummies(data = ___, columns = categorical, drop_first=True)
# Initialize StandardScaler instance
scaler = ___()
# Fit and transform the scaler on numerical columns
scaled_numerical = ___.fit_transform(telco_raw[___])
# Build a DataFrame from scaled_numerical
scaled_numerical = pd.DataFrame(___, columns=numerical)