Daten in Training und Test aufteilen
Letzter Schritt, bevor wir das Regressionsmodell bauen! Hier folgst du den Schritten, die Zielvariable und die Feature-Spalten zu identifizieren, die Daten zu extrahieren und sie in Training und Test aufzuteilen.
Die Bibliotheken pandas und numpy wurden bereits als pd bzw. np geladen. Die Eingabe-Features sind als Datensatz features importiert, und die Zielvariable, die du in der vorherigen Übung erstellt hast, wurde für dich als Y importiert.
Diese Übung ist Teil des Kurses
Machine Learning für Marketing mit Python
Anleitung zur Übung
- Speichere den Spaltennamen des Kundenkennzeichners als Liste.
- Wähle die Feature-Spaltennamen aus, ohne den Kundenkennzeichner.
- Extrahiere die Features als
X. - Teile die Daten mit der Funktion
train_test_split()in Training und Test auf.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Store customer identifier column name as a list
custid = ['___']
# Select feature column names excluding customer identifier
cols = [col for col in features.___ if col not in ___]
# Extract the features as `X`
X = features[___]
# Split data to training and testing
___, test_X, train_Y, ___ = ___(X, Y, test_size=0.25, random_state=99)