Numerische und kategoriale Spalten trennen
In der letzten Übung hast du die Datensatzmerkmale untersucht und bist bereit für etwas Vorverarbeitung. Jetzt trennst du kategoriale und numerische Variablen aus dem DataFrame telco_raw mit einem eigenen Schwellenwert für die Anzahl eindeutiger Werte (kategorial vs. numerisch). Das Modul pandas wurde bereits als pd geladen.
Der Rohdatensatz zum Telecom-Churn telco_raw wurde als pandas DataFrame geladen. Du kannst dich in der Konsole mit dem Datensatz vertraut machen, indem du ihn erkundest.
Diese Übung ist Teil des Kurses
Machine Learning für Marketing mit Python
Anleitung zur Übung
- Speichere die Spaltennamen
customerIDundChurn. - Weise
categoricaldie Spaltennamen zu, die weniger als 5 eindeutige Werte haben. - Entferne
targetaus der Liste. - Weise
numericalalle Spaltennamen zu, die nicht incustid,targetundcategoricalenthalten sind.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Store customerID and Churn column names
custid = ['___']
target = ['___']
# Store categorical column names
categorical = telco_raw.___()[telco_raw.nunique() < ___].keys().tolist()
# Remove target from the list of categorical variables
categorical.remove(___[0])
# Store numerical column names
numerical = [x for x in telco_raw.___ if x not in custid + ___ + categorical]