Maak één holdoutset
Je leidinggevende heeft je gevraagd om een eenvoudig random forest-model te maken op de tic_tac_toe-gegevensset. Ze wil niet dat je veel tijd besteedt aan het kiezen van parameters; ze wil juist weten hoe goed het model zal presteren op toekomstige data. Voor toekomstige Tic-Tac-Toe-spellen is het handig om te weten of je model kan voorspellen welke speler zal winnen.
De gegevensset tic_tac_toe is voor je geladen.
Let op: in Python geeft =\ aan dat de code te lang was voor één regel en daarom over twee regels is verdeeld.
Deze oefening maakt deel uit van de cursus
Modelvalidatie in Python
Oefeninstructies
- Maak de
X-gegevensset door dummyvariabelen te maken voor alle categorische kolommen. - Splits
Xenyin train (X_train,y_train) en test (X_test,y_test) gegevenssets. - Splits de gegevenssets waarbij je 10% gebruikt voor testen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create dummy variables using pandas
X = ____.____(tic_tac_toe.iloc[:,0:9])
y = tic_tac_toe.iloc[:, 9]
# Create training and testing datasets. Use 10% for the test set
____, ____, ____, ____ = ____(X, y, ____=____, random_state=1111)