Voorspel churn met een decision tree

Nu ga je verder bouwen op de vaardigheden uit de vorige oefening en maak je een complexere decision tree met extra parameters om customer churn te voorspellen. In het volgende hoofdstuk ga je dieper in op churnvoorspelling. Hier voer je de decision tree-classifier opnieuw uit op je trainingsgegevens, voorspel je de churn op onbekende (test)gegevens en beoordeel je de modelnauwkeurigheid op beide gegevenssets.

De tree-module uit de sklearn-bibliotheek is alvast voor je geladen, evenals de functie accuracy_score uit sklearn.metrics. De features en doelvariabelen zijn ook geïmporteerd als train_X, train_Y voor de trainingsgegevens en test_X, test_Y voor de testgegevens.

Deze oefening maakt deel uit van de cursus

Machine Learning voor marketing in Python

Bekijk cursus

Oefeninstructies

Initialiseer een Decision tree met een maximale diepte van 7 en gebruik het gini-criterium.
Fit het model op de trainingsgegevens.
Voorspel de waarden op de testgegevensset.
Print de accuracy-waarden voor zowel de trainings- als de testgegevensset.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Initialize the Decision Tree
clf = tree.DecisionTreeClassifier(max_depth = ___, 
               criterion = 'gini', 
               splitter  = 'best')

# Fit the model to the training data
clf = clf.___(train_X, train_Y)

# Predict the values on test dataset
pred_Y = clf.___(test_X)

# Print accuracy values
print("Training accuracy: ", np.round(clf.score(train_X, train_Y), 3)) 
print("Test accuracy: ", np.round(___(test_Y, pred_Y), 3))

Code bewerken en uitvoeren