Een random forest-model bouwen
Je werkt opnieuw met de Pima Indians-gegevensset om te voorspellen of iemand diabetes heeft, dit keer met een random forest-classifier. Je traint het model op de trainingsgegevens na een train-test split en bekijkt vervolgens de feature-importancewaarden.
De feature- en target-gegevenssets zijn al voor je ingeladen als X en y. Hetzelfde geldt voor de benodigde pakketten en functies.
Deze oefening maakt deel uit van de cursus
Dimensionality Reduction in Python
Oefeninstructies
- Stel een testgrootte van 25% in voor een 75%-25% train-test split.
- Train de random forest-classifier op de trainingsgegevens.
- Bereken de nauwkeurigheid op de testset.
- Print de feature importances per feature.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Perform a 75% training and 25% test data split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=____, random_state=0)
# Fit the random forest model to the training data
rf = RandomForestClassifier(random_state=0)
rf.____(____, ____)
# Calculate the accuracy
acc = accuracy_score(____, ____)
# Print the importances per feature
print(dict(zip(X.columns, rf.____.round(2))))
# Print accuracy
print(f"{acc:.1%} accuracy on test set.")