LoslegenKostenlos loslegen

Erstelle zwei Holdout-Sets

Kürzlich hast du ein einfaches Random-Forest-Modell erstellt, um für deine Chefin Tic-Tac-Toe-Siege vorherzusagen, und auf ihren Wunsch hin kein Parameter-Tuning vorgenommen. Leider war die Gesamtgenauigkeit des Modells zu niedrig für ihre Ansprüche. Dieses Mal bittet sie dich, dich auf die Modellleistung zu konzentrieren.

Bevor du verschiedene Modelle und Parametersätze testest, musst du die Daten in Trainings-, Validierungs- und Testdatensätze aufteilen. Denk daran: Nachdem du die Daten in Trainings- und Testdatensätze aufgeteilt hast, wird der Validierungsdatensatz durch eine Aufteilung des Trainingsdatensatzes erzeugt.

Die Datensätze X und y wurden für dich geladen.

Diese Übung ist Teil des Kurses

Modellvalidierung in Python

Kurs anzeigen

Anleitung zur Übung

  • Erstelle temporäre Datensätze und Testdatensätze (X_test, y_test). Verwende 20 % der Gesamtdaten für die Testdatensätze.
  • Erstelle mithilfe der temporären Datensätze (X_temp, y_temp) Trainings- (X_train, y_train) und Validierungsdatensätze (X_val, y_val).
  • Verwende 25 % der temporären Daten für die Validierungsdatensätze.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create temporary training and final testing datasets
X_temp, ____, y_temp, ____  =\
    train_test_split(X, y, ____=____, random_state=1111)

# Create the final training and validation datasets
____, ____, ____, ____ =\
    train_test_split(X_temp, y_temp, ____=____, random_state=1111)
Code bearbeiten und ausführen