Crea due holdout set
Di recente hai creato un semplice modello di random forest per prevedere le vittorie a Tris per la tua responsabile e, su sua richiesta, non hai effettuato alcun tuning dei parametri. Purtroppo, l'accuratezza complessiva del modello era troppo bassa per i suoi standard. Questa volta ti ha chiesto di concentrarti sulle prestazioni del modello.
Prima di iniziare a testare modelli diversi e set di parametri, dovrai suddividere i dati in insiemi di addestramento, validazione e test. Ricorda che, dopo aver diviso i dati in insiemi di addestramento e test, l'insieme di validazione si crea suddividendo ulteriormente l'insieme di addestramento.
Gli insiemi di dati X e y sono già stati caricati per te.
Questo esercizio fa parte del corso
Validazione dei modelli in Python
Istruzioni dell'esercizio
- Crea insiemi di dati temporanei e di test (
X_test,y_test). Usa il 20% dei dati complessivi per gli insiemi di test. - Usando gli insiemi temporanei (
X_temp,y_temp), crea gli insiemi di addestramento (X_train,y_train) e validazione (X_val,y_val). - Usa il 25% dei dati temporanei per gli insiemi di validazione.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create temporary training and final testing datasets
X_temp, ____, y_temp, ____ =\
train_test_split(X, y, ____=____, random_state=1111)
# Create the final training and validation datasets
____, ____, ____, ____ =\
train_test_split(X_temp, y_temp, ____=____, random_state=1111)