Verteilung der Werte der Zielvariablen

Eine Schichtung nach der Zielvariablen beim Erstellen von Trainings- und Testdatensätzen stellt sicher, dass die Werte der Zielvariablen in beiden Datensätzen einen ähnlichen Wertebereich haben.

Da die Originaldaten zufällig aufgeteilt werden, verhindert die Schichtung zum Beispiel, dass alle teuren Häuser in home_sales im Testdatensatz landen. In diesem Fall würde dein Modell höchstwahrscheinlich schlecht abschneiden, weil es nur auf weniger teuren Häusern trainiert wurde.

In dieser Übung berechnest du zusammenfassende Statistiken für die Variable selling_price in den Trainings- und Testdatensätzen. Die Tibbles home_training und home_test wurden aus der vorherigen Übung geladen.

Diese Übung ist Teil des Kurses

<Kurs>Modellierung mit tidymodels in R</Kurs>

Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Distribution of selling_price in training data
___ %>% 
  summarize(min_sell_price = ___,
            max_sell_price = ___,
            mean_sell_price = ___,
            sd_sell_price = ___)

Code bearbeiten und ausführen