IniziaInizia gratis

Crea due holdout set

Di recente hai creato un semplice modello di random forest per prevedere le vittorie a Tris per la tua responsabile e, su sua richiesta, non hai effettuato alcun tuning dei parametri. Purtroppo, l'accuratezza complessiva del modello era troppo bassa per i suoi standard. Questa volta ti ha chiesto di concentrarti sulle prestazioni del modello.

Prima di iniziare a testare modelli diversi e set di parametri, dovrai suddividere i dati in insiemi di addestramento, validazione e test. Ricorda che, dopo aver diviso i dati in insiemi di addestramento e test, l'insieme di validazione si crea suddividendo ulteriormente l'insieme di addestramento.

Gli insiemi di dati X e y sono già stati caricati per te.

Questo esercizio fa parte del corso

Validazione dei modelli in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Crea insiemi di dati temporanei e di test (X_test, y_test). Usa il 20% dei dati complessivi per gli insiemi di test.
  • Usando gli insiemi temporanei (X_temp, y_temp), crea gli insiemi di addestramento (X_train, y_train) e validazione (X_val, y_val).
  • Usa il 25% dei dati temporanei per gli insiemi di validazione.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create temporary training and final testing datasets
X_temp, ____, y_temp, ____  =\
    train_test_split(X, y, ____=____, random_state=1111)

# Create the final training and validation datasets
____, ____, ____, ____ =\
    train_test_split(X_temp, y_temp, ____=____, random_state=1111)
Modifica ed esegui il codice