Daten in Training und Test aufteilen

Letzter Schritt, bevor wir das Regressionsmodell bauen! Hier folgst du den Schritten, die Zielvariable und die Feature-Spalten zu identifizieren, die Daten zu extrahieren und sie in Training und Test aufzuteilen.

Die Bibliotheken pandas und numpy wurden bereits als pd bzw. np geladen. Die Eingabe-Features sind als Datensatz features importiert, und die Zielvariable, die du in der vorherigen Übung erstellt hast, wurde für dich als Y importiert.

Diese Übung ist Teil des Kurses

<Kurs>Machine Learning für Marketing mit Python</Kurs>

Kurs ansehen

Übungsanweisungen

Speichere den Spaltennamen des Kundenkennzeichners als Liste.
Wähle die Feature-Spaltennamen aus, ohne den Kundenkennzeichner.
Extrahiere die Features als X.
Teile die Daten mit der Funktion train_test_split() in Training und Test auf.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Store customer identifier column name as a list
custid = ['___']

# Select feature column names excluding customer identifier
cols = [col for col in features.___ if col not in ___]

# Extract the features as `X`
X = features[___]

# Split data to training and testing
___, test_X, train_Y, ___ = ___(X, Y, test_size=0.25, random_state=99)

Code bearbeiten und ausführen