Een random forest-model bouwen

Je werkt opnieuw met de Pima Indians-gegevensset om te voorspellen of iemand diabetes heeft, dit keer met een random forest-classifier. Je traint het model op de trainingsgegevens na een train-test split en bekijkt vervolgens de feature-importancewaarden.

De feature- en target-gegevenssets zijn al voor je ingeladen als X en y. Hetzelfde geldt voor de benodigde pakketten en functies.

Deze oefening maakt deel uit van de cursus

Dimensionality Reduction in Python

Bekijk cursus

Oefeninstructies

Stel een testgrootte van 25% in voor een 75%-25% train-test split.
Train de random forest-classifier op de trainingsgegevens.
Bereken de nauwkeurigheid op de testset.
Print de feature importances per feature.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Perform a 75% training and 25% test data split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=____, random_state=0)

# Fit the random forest model to the training data
rf = RandomForestClassifier(random_state=0)
rf.____(____, ____)

# Calculate the accuracy
acc = accuracy_score(____, ____)

# Print the importances per feature
print(dict(zip(X.columns, rf.____.round(2))))

# Print accuracy
print(f"{acc:.1%} accuracy on test set.")

Code bewerken en uitvoeren