KFold-Indizes verwenden
Du hast bereits splits erstellt. Das enthält Indizes für den candy-data-Datensatz, um eine 5-fache Cross-Validation durchzuführen. Um eine bessere Schätzung dafür zu bekommen, wie gut das Random-Forest-Modell einer Kollegin bzw. eines Kollegen auf neuen Daten abschneiden wird, möchtest du dieses Modell auf den fünf verschiedenen Trainings- und Validierungsindizes ausführen, die du gerade erstellt hast.
In dieser Übung verwendest du diese Indizes, um die Genauigkeit des Modells über die fünf verschiedenen Splits zu prüfen. Eine for-Schleife wurde bereitgestellt, um dich bei diesem Prozess zu unterstützen.
Diese Übung ist Teil des Kurses
Modellvalidierung in Python
Anleitung zur Übung
- Verwende
train_indexundval_index, um beim Erstellen der Trainings- und Validierungsdaten die richtigen Indizes vonXundyauszuwählen. - Fitte
rfcmit dem Trainingsdatensatz. - Verwende
rfc, um Vorhersagen für den Validierungsdatensatz zu erstellen, und gib die Validierungsgenauigkeit aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
rfc = RandomForestRegressor(n_estimators=25, random_state=1111)
# Access the training and validation indices of splits
for train_index, val_index in splits:
# Setup the training and validation data
X_train, y_train = X[____], y[____]
X_val, y_val = X[____], y[____]
# Fit the random forest model
rfc.____(____, ____)
# Make predictions, and print the accuracy
predictions = rfc.____(____)
print("Split accuracy: " + str(mean_squared_error(y_val, predictions)))