LoslegenKostenlos loslegen

Ein Random-Forest-Modell erstellen

Du arbeitest wieder mit dem Pima-Indians-Datensatz, um vorherzusagen, ob eine Person Diabetes hat – diesmal mit einem Random-Forest-Klassifikator. Du passt das Modell nach dem Train-Test-Split auf die Trainingsdaten an und schaust dir die Feature-Importance-Werte an.

Die Feature- und Ziel-Datensätze wurden bereits als X und y für dich geladen. Gleiches gilt für die benötigten Pakete und Funktionen.

Diese Übung ist Teil des Kurses

Dimensionsreduktion in Python

Kurs anzeigen

Anleitung zur Übung

  • Setze test_size auf 25 %, um einen 75 %-25 %-Train-Test-Split durchzuführen.
  • Passe den Random-Forest-Klassifikator an die Trainingsdaten an.
  • Berechne die Accuracy auf dem Testsatz.
  • Gib die Feature Importances pro Feature aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Perform a 75% training and 25% test data split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=____, random_state=0)

# Fit the random forest model to the training data
rf = RandomForestClassifier(random_state=0)
rf.____(____, ____)

# Calculate the accuracy
acc = accuracy_score(____, ____)

# Print the importances per feature
print(dict(zip(X.columns, rf.____.round(2))))

# Print accuracy
print(f"{acc:.1%} accuracy on test set.") 
Code bearbeiten und ausführen