Verdeling van waarden van de uitkomstvariabele

Door te stratificeren op de uitkomstvariabele bij het maken van trainings- en testgegevenssets, zorg je ervoor dat de waarden van de uitkomstvariabele in beide sets een vergelijkbaar bereik hebben.

Omdat de oorspronkelijke data willekeurig wordt gesplitst, voorkomt stratificatie bijvoorbeeld dat alle dure huizen in home_sales in de testgegevensset belanden. In dat geval zou je model waarschijnlijk slecht presteren, omdat het alleen is getraind op minder dure huizen.

In deze oefening bereken je samenvattende statistieken voor de variabele selling_price in de trainings- en testgegevenssets. De tibbles home_training en home_test zijn geladen uit de vorige oefening.

Deze oefening maakt deel uit van de cursus

Modelleren met tidymodels in R

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Distribution of selling_price in training data
___ %>% 
  summarize(min_sell_price = ___,
            max_sell_price = ___,
            mean_sell_price = ___,
            sd_sell_price = ___)

Code bewerken en uitvoeren