Modell auf Trainingsdaten anpassen

Es ist Zeit, deine Daten in ein Training-Set zum Anpassen des Modells und ein separates Test-Set zur Bewertung der Vorhersageleistung zu splitten. Bevor wir diesen Split vornehmen, ziehen wir jedoch zunächst 100 % der Zeilen von house_prices ohne Zurücklegen und weisen das Ergebnis house_prices_shuffled zu. Dadurch werden die Zeilen „gemischt“, sodass Trainings- und Test-Set zufällig gezogen werden.

Diese Übung ist Teil des Kurses

Modellieren mit Daten im Tidyverse

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Set random number generator seed value for reproducibility
set.seed(76)

# Randomly reorder the rows
house_prices_shuffled <- house_prices %>% 
  sample_frac(size = 1, replace = FALSE)

# Train/test split
train <- house_prices_shuffled %>%
  slice(___:___)
test <- house_prices_shuffled %>%
  slice(___:___)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Modellieren mit Daten im Tidyverse

Mittlere SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

In diesem Kapitel lernst du einige Hintergrundtheorien und Begriffe zum Modellieren kennen – insbesondere den allgemeinen Modellierungsrahmen, den Unterschied zwischen Modellieren zur Erklärung und zur Vorhersage sowie das Modellierungsproblem. Außerdem startest du mit deiner ersten explorativen Datenanalyse – ein entscheidender erster Schritt vor jeder formalen Modellierung.

Exercise 1: Hintergrund zu Modellen zur Erklärung Exercise 2: Explorative Visualisierung von age Exercise 3: Numerische Zusammenfassungen von age Exercise 4: Hintergrund: Modellierung für Vorhersagen Exercise 5: Explorative Visualisierung der Hausgröße Exercise 6: Log10-Transformation der Hausgröße Exercise 7: Das Modellierungsproblem für Erklärungen Exercise 8: EDA zur Beziehung von Lehr- und "Beauty"-Scores Exercise 9: Korrelation zwischen Lehr- und „Beauty“-Scores Exercise 10: Das Modellierungsproblem für Vorhersagen Exercise 11: EDA zur Beziehung von Hauspreis und waterfront Exercise 12: Hauspreise mit waterfront vorhersagen

Mit deinem Verständnis des allgemeinen Modellierungsrahmens behandeln wir in diesem Kapitel die einfache lineare Regression. Dabei hältst du es übersichtlich und modellierst die Zielvariable y als Funktion einer einzelnen erklärenden/Vorhersagevariable x. Wir verwenden sowohl numerische als auch kategoriale x‑Variablen. Die Zielvariable in diesem Kapitel sind Lehrbewertungswerte von Dozierenden an der University of Texas in Austin.

Exercise 1: Lehrbewertung mit Alter erklären Exercise 2: Eine „bestmöglich passende“ Regressionslinie zeichnen Exercise 3: Anpassen einer Regression mit numerischem x Exercise 4: Lehrbewertung anhand des Alters vorhersagen Exercise 5: Vorhersagen mit dem „Beauty Score“Exercise 6: Berechnete/Prognostizierte Werte und Residuen ermitteln Exercise 7: Lehrbewertung mithilfe des Geschlechts erklären Exercise 8: EDA zur Beziehung zwischen score und rank Exercise 9: Eine Regression mit kategorialem x anpassen Exercise 10: Vorhersage der Lehrbewertung anhand des Geschlechts Exercise 11: Vorhersagen mit rank treffen Exercise 12: Die Verteilung der Residuen visualisieren

Im vorherigen Kapitel hast du die einfache Regression mit entweder einer numerischen oder einer kategorialen Prädiktorvariable kennengelernt. Aber warum sollten wir uns auf nur eine Variable zur Begründung/Vorhersage beschränken? Du erweiterst nun die einfache Regression zur multiplen Regression, die es ermöglicht, mehr als eine erklärende oder Vorhersagevariable in deine Modelle aufzunehmen. Du modellierst Hauspreise mit einem Datensatz von Häusern aus der Metropolregion Seattle, WA.

Exercise 1: Hauspreise mit Baujahr und Größe erklären Exercise 2: EDA der Beziehung Exercise 3: Eine Regression anpassen Exercise 4: Hauspreis mit Baujahr und Größe vorhersagen Exercise 5: Vorhersagen mit Größe und Schlafzimmern Exercise 6: Residuen interpretieren Exercise 7: Hauspreis mit Größe und Zustand erklären Exercise 8: Modell mit parallelen Steigungen Exercise 9: Das Parallel-Slopes-Modell interpretieren Exercise 10: Vorhersage des Hauspreises anhand von Größe und Zustand Exercise 11: Vorhersagen mit Größe und Wasserlage Exercise 12: Vorhersagen für „neue“ Häuser automatisieren

In den vorherigen Kapiteln hast du verschiedene Modelle angepasst, um eine interessierende Zielvariable zu erklären oder vorherzusagen. Doch woher wissen wir, welche Modelle wir wählen sollen? Mit Maßen zur Modellbewertung kannst du beurteilen, wie gut ein erklärendes Modell zu einem Datensatz „passt“ oder wie genau ein Vorhersagemodell ist. Auf Grundlage dieser Maße lernst du Kriterien kennen, um zu bestimmen, welche Modelle „am besten“ sind.

Exercise 1: Modellauswahl und -bewertung Exercise 2: Auffrischung: Summe der quadrierten Residuen Exercise 3: Welches Modell auswählen?Exercise 4: Modellgüte mit R-Quadrat beurteilen Exercise 5: Das Bestimmtheitsmaß R-squared für ein Modell berechnen Exercise 6: Vergleich der R-Quadrat-Werte zweier Modelle Exercise 7: Vorhersagen mit dem RMSE bewerten Exercise 8: MSE und RMSE eines Modells berechnen Exercise 9: Vergleich des RMSE zweier Modelle Exercise 10: Vorhersagerahmen mit Validierungsmenge Exercise 11: Modell auf Trainingsdaten anpassen

Aktuelle Übung

Exercise 12: Vorhersagen auf Testdaten Exercise 13: Fazit – Wie geht es jetzt weiter?