Aan de slagGa gratis aan de slag

Maak twee holdout-sets

Je hebt laatst een eenvoudig random forest-model gebouwd om winstpartijen in boter-kaas-en-eieren te voorspellen voor je manager, en op haar verzoek heb je geen parameterafstemming gedaan. Helaas was de algehele modelnauwkeurigheid te laag voor haar standaarden. Deze keer heeft ze je gevraagd je te richten op de modelprestatie.

Voordat je verschillende modellen en parameterinstellingen gaat testen, moet je de data splitsen in trainings-, validatie- en testgegevenssets. Denk eraan dat, nadat je de data hebt gesplitst in trainings- en testgegevenssets, de validatiegegevensset wordt gemaakt door de trainingsgegevensset te splitsen.

De gegevenssets X en y zijn voor je geladen.

Deze oefening maakt deel uit van de cursus

Modelvalidatie in Python

Cursus bekijken

Oefeninstructies

  • Maak tijdelijke gegevenssets en testgegevenssets (X_test, y_test). Gebruik 20% van de totale data voor de testgegevenssets.
  • Gebruik de tijdelijke gegevenssets (X_temp, y_temp) om trainings- (X_train, y_train) en validatie- (X_val, y_val) gegevenssets te maken.
  • Gebruik 25% van de tijdelijke data voor de validatiegegevenssets.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create temporary training and final testing datasets
X_temp, ____, y_temp, ____  =\
    train_test_split(X, y, ____=____, random_state=1111)

# Create the final training and validation datasets
____, ____, ____, ____ =\
    train_test_split(X_temp, y_temp, ____=____, random_state=1111)
Code bewerken en uitvoeren