Kategorien encodieren und numerische Variablen skalieren
In diesem letzten Schritt führst du One-Hot-Encoding für die kategorialen Variablen durch und skalierst anschließend die numerischen Spalten. Die Bibliothek pandas wurde bereits als pd geladen, ebenso das Modul StandardScaler aus dem Modul sklearn.preprocessing.
Der Rohdatensatz zum Telekommunikations-Churn telco_raw wurde als pandas DataFrame geladen, ebenso die Listen custid, target, categorical und numerical mit Spaltennamen, die du in der vorherigen Aufgabe erstellt hast. Du kannst dich im Konsolenfenster mit dem Datensatz vertraut machen, indem du ihn dort erkundest.
Diese Übung ist Teil des Kurses
<Kurs>Machine Learning für Marketing mit Python</Kurs>Übungsanweisungen
- Führe One-Hot-Encoding für die kategorialen Variablen durch.
- Initialisiere eine
StandardScaler-Instanz. - Fitte und transformiere den
scalerauf den numerischen Spalten. - Erstelle ein DataFrame aus
scaled_numerical.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Perform one-hot encoding to categorical variables
telco_raw = pd.get_dummies(data = ___, columns = categorical, drop_first=True)
# Initialize StandardScaler instance
scaler = ___()
# Fit and transform the scaler on numerical columns
scaled_numerical = ___.fit_transform(telco_raw[___])
# Build a DataFrame from scaled_numerical
scaled_numerical = pd.DataFrame(___, columns=numerical)