Verteilung der Werte der Zielvariablen
Eine Schichtung nach der Zielvariablen beim Erstellen von Trainings- und Testdatensätzen stellt sicher, dass die Werte der Zielvariablen in beiden Datensätzen einen ähnlichen Wertebereich haben.
Da die Originaldaten zufällig aufgeteilt werden, verhindert die Schichtung zum Beispiel, dass alle teuren Häuser in home_sales im Testdatensatz landen. In diesem Fall würde dein Modell höchstwahrscheinlich schlecht abschneiden, weil es nur auf weniger teuren Häusern trainiert wurde.
In dieser Übung berechnest du zusammenfassende Statistiken für die Variable selling_price in den Trainings- und Testdatensätzen. Die Tibbles home_training und home_test wurden aus der vorherigen Übung geladen.
Diese Übung ist Teil des Kurses
Modellierung mit tidymodels in R
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Distribution of selling_price in training data
___ %>%
summarize(min_sell_price = ___,
max_sell_price = ___,
mean_sell_price = ___,
sd_sell_price = ___)