Distribuzione dei valori della variabile di outcome
Stratificare per la variabile di outcome quando si generano i dataset di training e di test garantisce che i valori della variabile di outcome abbiano un intervallo simile in entrambi i dataset.
Poiché i dati originali vengono suddivisi in modo casuale, la stratificazione evita, ad esempio, che tutte le case costose in home_sales finiscano nel dataset di test. In quel caso, il tuo modello probabilmente performerebbe peggio perché è stato addestrato su case meno costose.
In questo esercizio calcolerai le statistiche descrittive per la variabile selling_price nei dataset di training e di test. I tibble home_training e home_test sono stati caricati dall'esercizio precedente.
Questo esercizio fa parte del corso
Modellazione con tidymodels in R
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Distribution of selling_price in training data
___ %>%
summarize(min_sell_price = ___,
max_sell_price = ___,
mean_sell_price = ___,
sd_sell_price = ___)