Maak twee holdout-sets
Je hebt laatst een eenvoudig random forest-model gebouwd om winstpartijen in boter-kaas-en-eieren te voorspellen voor je manager, en op haar verzoek heb je geen parameterafstemming gedaan. Helaas was de algehele modelnauwkeurigheid te laag voor haar standaarden. Deze keer heeft ze je gevraagd je te richten op de modelprestatie.
Voordat je verschillende modellen en parameterinstellingen gaat testen, moet je de data splitsen in trainings-, validatie- en testgegevenssets. Denk eraan dat, nadat je de data hebt gesplitst in trainings- en testgegevenssets, de validatiegegevensset wordt gemaakt door de trainingsgegevensset te splitsen.
De gegevenssets X en y zijn voor je geladen.
Deze oefening maakt deel uit van de cursus
Modelvalidatie in Python
Oefeninstructies
- Maak tijdelijke gegevenssets en testgegevenssets (
X_test,y_test). Gebruik 20% van de totale data voor de testgegevenssets. - Gebruik de tijdelijke gegevenssets (
X_temp,y_temp) om trainings- (X_train,y_train) en validatie- (X_val,y_val) gegevenssets te maken. - Gebruik 25% van de tijdelijke data voor de validatiegegevenssets.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create temporary training and final testing datasets
X_temp, ____, y_temp, ____ =\
train_test_split(X, y, ____=____, random_state=1111)
# Create the final training and validation datasets
____, ____, ____, ____ =\
train_test_split(X_temp, y_temp, ____=____, random_state=1111)