Ein Random-Forest-Modell erstellen
Du arbeitest wieder mit dem Pima-Indians-Datensatz, um vorherzusagen, ob eine Person Diabetes hat – diesmal mit einem Random-Forest-Klassifikator. Du passt das Modell nach dem Train-Test-Split auf die Trainingsdaten an und schaust dir die Feature-Importance-Werte an.
Die Feature- und Ziel-Datensätze wurden bereits als X und y für dich geladen. Gleiches gilt für die benötigten Pakete und Funktionen.
Diese Übung ist Teil des Kurses
Dimensionsreduktion in Python
Anleitung zur Übung
- Setze
test_sizeauf 25 %, um einen 75 %-25 %-Train-Test-Split durchzuführen. - Passe den Random-Forest-Klassifikator an die Trainingsdaten an.
- Berechne die Accuracy auf dem Testsatz.
- Gib die Feature Importances pro Feature aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Perform a 75% training and 25% test data split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=____, random_state=0)
# Fit the random forest model to the training data
rf = RandomForestClassifier(random_state=0)
rf.____(____, ____)
# Calculate the accuracy
acc = accuracy_score(____, ____)
# Print the importances per feature
print(dict(zip(X.columns, rf.____.round(2))))
# Print accuracy
print(f"{acc:.1%} accuracy on test set.")