KFold-indices gebruiken
Je hebt splits al gemaakt, met indices voor de candy-data-gegevensset om 5-voudige cross-validatie uit te voeren. Om een beter beeld te krijgen van hoe goed het random forest-model van een collega zal presteren op nieuwe data, wil je dit model draaien op de vijf verschillende training- en validatie-indices die je zojuist hebt gemaakt.
In deze oefening gebruik je deze indices om de nauwkeurigheid van dit model te controleren met de vijf verschillende splits. Er is een for-lus voorzien om je hierbij te helpen.
Deze oefening maakt deel uit van de cursus
Modelvalidatie in Python
Oefeninstructies
- Gebruik
train_indexenval_indexom de juiste indices vanXenyaan te roepen bij het maken van training- en validatiegegevens. - Fit
rfcmet de trainingsgegevensset - Gebruik
rfcom voorspellingen te maken voor de validatiegegevensset en print de validatienauwkeurigheid
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
rfc = RandomForestRegressor(n_estimators=25, random_state=1111)
# Access the training and validation indices of splits
for train_index, val_index in splits:
# Setup the training and validation data
X_train, y_train = X[____], y[____]
X_val, y_val = X[____], y[____]
# Fit the random forest model
rfc.____(____, ____)
# Make predictions, and print the accuracy
predictions = rfc.____(____)
print("Split accuracy: " + str(mean_squared_error(y_val, predictions)))