Creare insiemi di dati di training e di test
Il pacchetto rsample è pensato per creare insiemi di dati di training e di test. Creare un dataset di test è fondamentale per stimare come probabilmente si comporterà un modello addestrato su nuovi dati. Inoltre, aiuta a evitare l’overfitting, quando un modello memorizza pattern presenti solo nei dati di training e poi ha prestazioni scarse su dati nuovi.
In questo esercizio creerai i dataset di training e di test a partire dai dati home_sales. Questi dati contengono informazioni sulle case vendute nell’area di Seattle, Washington, tra il 2015 e il 2016.
La variabile di output in questi dati è selling_price.
Il pacchetto tidymodels sarà precaricato in ogni esercizio del corso. Anche la tibble home_sales è già stata caricata per te.
Questo esercizio fa parte del corso
Modellazione con tidymodels in R
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a data split object
home_split <- ___(home_sales,
prop = ___,
strata = ___)