LoslegenKostenlos loslegen

KFold-Indizes verwenden

Du hast bereits splits erstellt. Das enthält Indizes für den candy-data-Datensatz, um eine 5-fache Cross-Validation durchzuführen. Um eine bessere Schätzung dafür zu bekommen, wie gut das Random-Forest-Modell einer Kollegin bzw. eines Kollegen auf neuen Daten abschneiden wird, möchtest du dieses Modell auf den fünf verschiedenen Trainings- und Validierungsindizes ausführen, die du gerade erstellt hast.

In dieser Übung verwendest du diese Indizes, um die Genauigkeit des Modells über die fünf verschiedenen Splits zu prüfen. Eine for-Schleife wurde bereitgestellt, um dich bei diesem Prozess zu unterstützen.

Diese Übung ist Teil des Kurses

Modellvalidierung in Python

Kurs anzeigen

Anleitung zur Übung

  • Verwende train_index und val_index, um beim Erstellen der Trainings- und Validierungsdaten die richtigen Indizes von X und y auszuwählen.
  • Fitte rfc mit dem Trainingsdatensatz.
  • Verwende rfc, um Vorhersagen für den Validierungsdatensatz zu erstellen, und gib die Validierungsgenauigkeit aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

rfc = RandomForestRegressor(n_estimators=25, random_state=1111)

# Access the training and validation indices of splits
for train_index, val_index in splits:
    # Setup the training and validation data
    X_train, y_train = X[____], y[____]
    X_val, y_val = X[____], y[____]
    # Fit the random forest model
    rfc.____(____, ____)
    # Make predictions, and print the accuracy
    predictions = rfc.____(____)
    print("Split accuracy: " + str(mean_squared_error(y_val, predictions)))
Code bearbeiten und ausführen