Aan de slagGa gratis aan de slag

KFold-indices gebruiken

Je hebt splits al gemaakt, met indices voor de candy-data-gegevensset om 5-voudige cross-validatie uit te voeren. Om een beter beeld te krijgen van hoe goed het random forest-model van een collega zal presteren op nieuwe data, wil je dit model draaien op de vijf verschillende training- en validatie-indices die je zojuist hebt gemaakt.

In deze oefening gebruik je deze indices om de nauwkeurigheid van dit model te controleren met de vijf verschillende splits. Er is een for-lus voorzien om je hierbij te helpen.

Deze oefening maakt deel uit van de cursus

Modelvalidatie in Python

Cursus bekijken

Oefeninstructies

  • Gebruik train_index en val_index om de juiste indices van X en y aan te roepen bij het maken van training- en validatiegegevens.
  • Fit rfc met de trainingsgegevensset
  • Gebruik rfc om voorspellingen te maken voor de validatiegegevensset en print de validatienauwkeurigheid

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

rfc = RandomForestRegressor(n_estimators=25, random_state=1111)

# Access the training and validation indices of splits
for train_index, val_index in splits:
    # Setup the training and validation data
    X_train, y_train = X[____], y[____]
    X_val, y_val = X[____], y[____]
    # Fit the random forest model
    rfc.____(____, ____)
    # Make predictions, and print the accuracy
    predictions = rfc.____(____)
    print("Split accuracy: " + str(mean_squared_error(y_val, predictions)))
Code bewerken en uitvoeren