Features en doelvariabele scheiden
Nu je de data hebt opgesplitst in training en testen, is het tijd voor de laatste stap vóór je het model traint: de features en de doelvariabele scheiden in verschillende gegevenssets. Je gebruikt hiervoor de lijst met kolomnamen die al voor je is geladen.
De hoofdgegevensset is geladen als telcom en opgesplitst in trainings- en testgegevenssets die als pandas DataFrames in respectievelijk train en test staan. De lijsten target en custid bevatten de namen van de doelvariabele en de klant-ID. Je moet de lijst cols maken met de namen van de overige kolommen. Voel je vrij om de gegevenssets in de console te verkennen.
Deze oefening maakt deel uit van de cursus
Machine Learning voor marketing in Python
Oefeninstructies
- Sla de kolomnamen van
telcomop in een lijst, exclusief de namen van de doelvariabele en klant-ID. - Extraheer de trainingsfeatures en het trainingstarget.
- Extraheer de testfeatures en het testtarget.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Store column names from `telcom` excluding target variable and customer ID
cols = [col for col in ___.columns if col not in ___ + target]
# Extract training features
train_X = train[___]
# Extract training target
train_Y = train[___]
# Extract testing features
test_X = test[___]
# Extract testing target
test_Y = test[___]