Ein Random-Forest-Modell erstellen

Du arbeitest wieder mit dem Pima-Indians-Datensatz, um vorherzusagen, ob eine Person Diabetes hat – diesmal mit einem Random-Forest-Klassifikator. Du passt das Modell nach dem Train-Test-Split auf die Trainingsdaten an und schaust dir die Feature-Importance-Werte an.

Die Feature- und Ziel-Datensätze wurden bereits als X und y für dich geladen. Gleiches gilt für die benötigten Pakete und Funktionen.

Diese Übung ist Teil des Kurses

<Kurs>Dimensionsreduktion in Python</Kurs>

Kurs ansehen

Übungsanweisungen

Setze test_size auf 25 %, um einen 75 %-25 %-Train-Test-Split durchzuführen.
Passe den Random-Forest-Klassifikator an die Trainingsdaten an.
Berechne die Accuracy auf dem Testsatz.
Gib die Feature Importances pro Feature aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Perform a 75% training and 25% test data split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=____, random_state=0)

# Fit the random forest model to the training data
rf = RandomForestClassifier(random_state=0)
rf.____(____, ____)

# Calculate the accuracy
acc = accuracy_score(____, ____)

# Print the importances per feature
print(dict(zip(X.columns, rf.____.round(2))))

# Print accuracy
print(f"{acc:.1%} accuracy on test set.")

Code bearbeiten und ausführen