Distribuzione dei valori della variabile di outcome

Stratificare per la variabile di outcome quando si generano i dataset di training e di test garantisce che i valori della variabile di outcome abbiano un intervallo simile in entrambi i dataset.

Poiché i dati originali vengono suddivisi in modo casuale, la stratificazione evita, ad esempio, che tutte le case costose in home_sales finiscano nel dataset di test. In quel caso, il tuo modello probabilmente performerebbe peggio perché è stato addestrato su case meno costose.

In questo esercizio calcolerai le statistiche descrittive per la variabile selling_price nei dataset di training e di test. I tibble home_training e home_test sono stati caricati dall'esercizio precedente.

Questo esercizio fa parte del corso

Modellazione con tidymodels in R

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Distribution of selling_price in training data
___ %>% 
  summarize(min_sell_price = ___,
            max_sell_price = ___,
            mean_sell_price = ___,
            sd_sell_price = ___)

Modifica ed esegui il codice