Erstelle ein Holdout-Set
Deine Chefin hat dich gebeten, ein einfaches Random-Forest-Modell auf dem Datensatz tic_tac_toe zu erstellen. Sie möchte nicht, dass du viel Zeit in die Parameterauswahl steckst; wichtiger ist ihr, wie gut das Modell auf zukünftigen Daten abschneidet. Für zukünftige Tic-Tac-Toe-Spiele wäre es hilfreich zu wissen, ob dein Modell vorhersagen kann, welcher Spieler gewinnt.
Der Datensatz tic_tac_toe wurde für dich geladen.
Beachte, dass in Python =\ anzeigt, dass der Code für eine Zeile zu lang war und auf zwei Zeilen aufgeteilt wurde.
Diese Übung ist Teil des Kurses
Modellvalidierung in Python
Anleitung zur Übung
- Erstelle den Datensatz
X, indem du für alle kategorialen Spalten Dummy-Variablen erstellst. - Teile
Xundyin Trainings- (X_train,y_train) und Testdatensätze (X_test,y_test). - Teile die Datensätze so auf, dass 10 % für das Testen verwendet werden.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create dummy variables using pandas
X = ____.____(tic_tac_toe.iloc[:,0:9])
y = tic_tac_toe.iloc[:, 9]
# Create training and testing datasets. Use 10% for the test set
____, ____, ____, ____ = ____(X, y, ____=____, random_state=1111)