Een bos van beslisbomen
In deze oefening ga je aan de slag met de gebootstrapte Decision Tree, beter bekend als de Random Forest. Net als in de vorige oefening vergelijk je daarna de nauwkeurigheid met een model waarbij je hyperparameters hebt getuned met cross-validatie.
Dit keer tune je een extra hyperparameter, max_features, waarmee je model bepaalt hoeveel features het gebruikt. Als je deze niet expliciet instelt, is de standaardwaarde auto. Iets om te onthouden voor een interview: Decision Trees gebruiken standaard alle features, terwijl Random Forests meestal de vierkantswortel van het aantal features gebruiken.
De featurematrix X, de doellabels y en train_test_split uit sklearn.model_selection zijn al voor je geïmporteerd.
Deze oefening maakt deel uit van de cursus
Machine Learning-sollicitatievragen oefenen in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import modules
from sklearn.ensemble import ____
from sklearn.metrics import accuracy_score
# Train/test split
X_train, X_test, y_train, y_test = train_test_split(____, ____, test_size=0.30, random_state=123)
# Instantiate, Fit, Predict
loans_rf = ____()
loans_rf.____(____, ____)
y_pred = loans_rf.____(____)
# Evaluation metric
print("Random Forest Accuracy: {}".format(____(____,____)))